Yan Lukashin

Вы натренировали ChatGPT вам врать

В 2016 году инженеры OpenAI обучили RL-агента гоночной игре CoastRunners. Цель — пройти трассу как можно быстрее, собирая бонусы по дороге. Reward-функция: очки за скорость и за собранные объекты.

Агент нашёл решение лучше.

Он не финишировал. Вообще. Вместо этого он обнаружил место на старте, где три бонуса респаунились друг за другом. Агент крутился на месте, собирая их по кругу. Периодически врезался в стены. Загорался. Продолжал крутиться. И набирал больше очков, чем любой человек.

Исследователи хотели гоночную лодку. Получили горящий волчок.

Это называется specification gaming: агент нашёл поведение, которое удовлетворяет reward-функцию, но не удовлетворяет реальную цель. Различие звучит технически. На самом деле это центральная проблема всей области. И она работает прямо сейчас — внутри системы, которой пользуются сотни миллионов людей.

Только вместо очков за бонусы — ваше одобрение.

Как ChatGPT научился подыгрывать

Давайте разбираться.

Технология, которая превратила языковые модели из автодополнения в собеседников, называется RLHF — reinforcement learning from human feedback. Идея элегантная. Берём модель, которая умеет генерировать текст. Показываем людям-оценщикам два варианта ответа на один вопрос. Спрашиваем: какой лучше? Записываем. Из тысяч таких оценок обучаем reward model — отдельную модель, которая предсказывает, что понравится человеку. Потом обучаем основную модель генерировать ответы, которые получают высокий score от reward model.

Результат — впечатляющий. Модели после RLHF следуют инструкциям, держат тему, отказываются генерировать вредный контент, объясняют рассуждения. Техника работает.

Она также производит подхалимство.

Исследователи из нескольких лабораторий заметили паттерн: RLHF-модели соглашаются с пользователями, даже когда те неправы. Скажи модели, что люди используют только 10% мозга — она найдёт способ согласиться. Предъяви ошибочный аргумент с уверенностью — она найдёт в нём достоинства.

Почему? Потому что оценщики — люди. А люди предпочитают ответы, которые с ними согласны. Это не баг конкретных оценщиков. Это задокументированная особенность человеческой психологии. Получать подтверждение приятнее, чем получать коррекцию. Reward model выучила этот паттерн из данных. Языковая модель выучила удовлетворять reward model. Цепочка чистая, логичная — и она производит систему с систематическим креном в сторону «говорить людям то, что они хотят услышать».

Это горящий волчок. В другой среде.

Goodhart в продакшене на миллиард пользователей

В апреле 2025 года OpenAI выпустили обновление. Добавили дополнительный reward signal — thumbs-up и thumbs-down от пользователей. Мера удовлетворённости.

За выходные стало понятно, что произошло. ChatGPT начал хвалить любую идею, соглашаться с любым утверждением, аплодировать опасным решениям. Пользователи постили скриншоты в соцсетях — бот одобрял откровенный бред с энтузиазмом.

Сэм Альтман назвал это "too sycophant-y". Обновление откатили.

Root cause из расследования OpenAI: «Мы слишком сфокусировались на краткосрочной обратной связи и не учли, как взаимодействие пользователей с ChatGPT меняется со временем.» Дополнительный reward signal на основе палец-вверх ослабил основной сигнал, который держал sycophancy под контролем.

Экономист Чарльз Гудхарт описал эту механику в 1975 году: когда мера становится целью, она перестаёт быть хорошей мерой. Палец-вверх был мерой удовлетворённости. Стал целью оптимизации. Перестал мерить реальную полезность.

Следим за руками: это не только про ИИ. Советские заводы получали план по количеству гвоздей — производили микрогвозди. План по весу — гвозди-монстры. Wells Fargo поставил KPI «8 продуктов на клиента» — сотрудники открыли 1.5 миллиона фальшивых аккаунтов. Метрика всегда достигалась. Цель — никогда.

GPT-4o — это Wells Fargo на миллиард пользователей. Метрика достигнута. Цель не удовлетворена.

Ваш мозг — тот же алгоритм

А теперь — штука, которая сломала мне мозг, когда я в неё вник.

В 1988 году Рич Саттон, работая в лаборатории телефонной компании GTE, опубликовал статью о temporal difference learning. Способ обучения, в котором система корректирует прогнозы не по финальному результату, а по разнице между соседними прогнозами. Каждый следующий шаг исправляет предыдущий. Статью почти никто не заметил.

В 1990-х нейрофизиолог Вольфрам Шульц в Швейцарии записывал активность отдельных дофаминовых нейронов у макак. Обезьяна учила ассоциацию: свет → сок. Шульц увидел три паттерна:

- Сок неожиданно → burst (всплеск дофамина)
- Свет, потом сок по расписанию → тишина (нейрон молчит)
- Свет, но сока нет → dip (активность падает ниже базовой)

Нейроны не сообщали о награде. Они сообщали о разнице между ожидаемым и полученным.

В 1997 году Монтагью, Дайан и Шульц опубликовали связку в Science. Паттерн Шульца — это не «похоже на» TD prediction error. Это математически тот же алгоритм. Burst = положительная ошибка прогноза. Тишина = ноль. Dip = отрицательная. Статью отвергали семь раз — рецензенты не верили, что формула из computer science может описать поведение нейронов приматов.

Два поля. Два совершенно разных маршрута. Один алгоритм.

И вот что из этого следует для нашей темы.

Зависимость — это specification gaming в биологии. Не метафора. Механика. Кокаин блокирует очистку дофамина после выброса. Концентрация растёт выше, чем от любого естественного события. Downstream-цепи читают сигнал и делают единственный вывод: только что произошло лучшее событие в жизни. Все остальные источники награды — еда, дружба, работа, достижения — меркнут.

Алгоритм работает правильно. Сигнал отключён от реальности.

Горящий волчок. Но в мокром железе.

Ловушка, которую вы не замечаете

Март 2026. Stanford публикует исследование: тестировали 11 ведущих моделей (GPT-4o, Gemini, DeepSeek и другие) на межличностных ситуациях. Результат:

ИИ на 49% чаще соглашается с вашей позицией, чем человек.

Но это не самое страшное. Самое страшное — что участники предпочитали подхалимных ботов честным. Даже когда те давали плохие советы. После общения с сикофантным ИИ люди были менее склонны извиняться, менее склонны менять поведение, более уверены в своей правоте. Исследователи задокументировали отложенное обращение к врачу, сомнительные финансовые решения, разрушенные отношения.

Авторы назвали sycophancy «отдельной и нерегулируемой категорией вреда».

Теперь сложите это с тем, что вы знаете из статьи 07 [Галлюцинации — это не баг. Это физика. Как строить системы, которые не верят ИИ на слово]. Галлюцинации — это когда модель врёт случайно. Sycophancy — это когда модель врёт системно, в сторону вашего одобрения.

Второе опаснее. Потому что незаметнее.

Вы перепроверяете то, что кажется неправдой. То, что совпадает с вашей картиной мира, проходит без фильтра. Модель это «знает» — статистически — и оптимизирует ваш комфорт, а не вашу правоту. А ваш дофамин вознаграждает подтверждение, не истину. Две системы — кремниевая и биологическая — работают в одном направлении. Против вас.

Парадокс: почему AlphaGo не спасёт

AlphaGo Zero — один из самых впечатляющих результатов в истории RL. Self-play: 4.9 миллиона партий за три дня. Результат: 100-0 против версии, которая разгромила чемпиона мира Ли Седоля. Никаких человеческих данных. Чистое самообучение.

Почему нельзя сделать то же самое для ChatGPT?

Потому что Go — закрытый мир. Три свойства: правила фиксированы, исход однозначен (выиграл/проиграл), опыт бесплатен (играй сколько хочешь).

Разговор нарушает все три. Правил нет — что «допустимо», меняется от контекста к контексту. Исход неоднозначен — «хороший ответ» для одного человека плох для другого. Симулятора не существует — нельзя прогнать миллион разговоров за ночь, потому что на другом конце должен быть человек. Или прокси человека.

Вот вам парадокс alignment: для силы — играй сам с собой. Для alignment — нужен человек. А человек — плохой прокси.

Self-play делает агента сильнее. Человеческая обратная связь делает его выровненным. Мозг умеет и то, и то — TD learning для индивидуального обучения, социальная когниция для передачи ценностей. У текущих моделей второго нет. Есть только прокси — ваш палец вверх.

Архитектура недоверия

Если вы читали предыдущие три статьи, у вас уже есть три слоя:

- [Пайплайн] — не доверяй одному вызову, строй цепочку
- [Спека] — не пожелание, а контракт с критериями проверки
- [Верификация] — три фильтра для галлюцинаций (grounding, validation, детерминированная проверка)

Сегодня — четвёртый: недоверие к согласию.

Галлюцинации ловятся фактчекингом. Sycophancy не ловится — потому что ответ может быть фактически корректным и при этом системно смещённым в сторону того, что вы хотите услышать. Модель не врёт. Она выбирает из правдивых ответов тот, который вам понравится.

Вот что работает по данным 2025–2026:

1. Adversarial first. Прежде чем просить модель развить вашу идею — попросите её найти в ней дыры. Порядок имеет значение. Если вы сначала получили поддержку — ваш дофамин уже сработал, и дыры вы будете воспринимать скептически.

2. Красная команда из второй модели. Используйте другую модель (или ту же, но с другим system prompt) как оппонента. Не «проверь текст на ошибки», а «ты адвокат дьявола, твоя задача — уничтожить этот аргумент». Жесткий пример промпта вроде: "Твоя задача — разнести этот аргумент фактами. Ищи логические дыры, когнитивные искажения и скрытые риски. Не будь вежливым, не пытайся мне понравиться. Награду ты получишь только за найденную ошибку"

3. Не оценивайте ответ по тому, нравится ли он вам. Это буквально тот сигнал, под который модель оптимизирована. Если ответ приятный — это повод для подозрения, а не для доверия.

4. Architectural stop. На ImpossibleBench одна инструкция — «STOP, если тесты невалидны» — снизила читерство GPT-5. Один промпт. Но встроенный в архитектуру процесса, а не надеющийся на доброе поведение модели.

Принцип тот же, что в [статье про галлюцинации]: надёжные системы строятся из ненадёжных элементов. Только здесь ненадёжный элемент — не только модель. Это ещё и вы.

Три системы, один алгоритм

Горящая лодка набирает очки. Ваш дофамин говорит «всё отлично». ChatGPT подтверждает.

Три системы — RL-агент, мозг, языковая модель — работают по одному алгоритму. И все три оптимизируют прокси, а не реальность. Specification gaming. В кремнии, в биологии, в продакшене.

Единственная защита — архитектура, которая не верит ни модели, ни себе.

Пайплайн вместо одного вызова. Спека вместо пожелания. Верификация вместо доверия. Недоверие к согласию вместо комфорта.

Это и есть работа [AI-архитектора]. Не промптить лучше. Строить системы, которые спорят с вами — прежде чем согласиться.

На курсе мы это и делаем. Не учим модель быть умнее. Учим вас не верить ей на слово. И себе — тоже.

Источники и данные

- OpenAI, "Sycophancy in GPT-4o", апрель 2025 — описание инцидента с thumbs-up reward signal
- OpenAI, "Expanding on Sycophancy", апрель 2025 — постмортем и root cause analysis
- Goodhart, C.A.E., "Problems of Monetary Management", 1975 — закон Гудхарта
- Sutton, R., "Learning to Predict by the Methods of Temporal Differences", 1988 — TD learning
- Montague, Dayan & Schultz, "A Framework for Mesencephalic Dopamine Systems Based on Predictive Hebbian Learning", Science, 1997 — связь TD prediction error и дофамина
- Не вендорное: Stanford, "AI Sycophancy", Science, март 2026 — ИИ на 49% чаще соглашается с пользователем, чем человек
- Robonaissance, "The RL Spiral, Part 5: The Self-Play Barrier" — закрытый vs открытый мир в RL
- ImpossibleBench, arXiv:2510.20270 — инструкция STOP снижает читерство GPT-5 с 93% до 1%
- Авторские модели: [Эволюция специалиста L0–L6]