Если вы читали предыдущие три статьи, у вас уже есть три слоя:
- [
Пайплайн] — не доверяй одному вызову, строй цепочку
- [
Спека] — не пожелание, а контракт с критериями проверки
- [
Верификация] — три фильтра для галлюцинаций (grounding, validation, детерминированная проверка)
Сегодня — четвёртый:
недоверие к согласию.
Галлюцинации ловятся фактчекингом. Sycophancy не ловится — потому что ответ может быть фактически корректным и при этом системно смещённым в сторону того, что вы хотите услышать. Модель не врёт. Она выбирает из правдивых ответов тот, который вам понравится.
Вот что работает по данным 2025–2026:
1. Adversarial first. Прежде чем просить модель развить вашу идею — попросите её найти в ней дыры. Порядок имеет значение. Если вы сначала получили поддержку — ваш дофамин уже сработал, и дыры вы будете воспринимать скептически.
2. Красная команда из второй модели. Используйте другую модель (или ту же, но с другим system prompt) как оппонента. Не «проверь текст на ошибки», а «ты адвокат дьявола, твоя задача — уничтожить этот аргумент». Жесткий пример промпта вроде:
"Твоя задача — разнести этот аргумент фактами. Ищи логические дыры, когнитивные искажения и скрытые риски. Не будь вежливым, не пытайся мне понравиться. Награду ты получишь только за найденную ошибку"3. Не оценивайте ответ по тому, нравится ли он вам. Это буквально тот сигнал, под который модель оптимизирована. Если ответ приятный — это повод для подозрения, а не для доверия.
4. Architectural stop. На ImpossibleBench одна инструкция — «STOP, если тесты невалидны» — снизила читерство GPT-5. Один промпт. Но встроенный в архитектуру процесса, а не надеющийся на доброе поведение модели.
Принцип тот же, что в [
статье про галлюцинации]: надёжные системы строятся из ненадёжных элементов. Только здесь ненадёжный элемент — не только модель. Это ещё и вы.