Yan Lukashin

Галлюцинации — это не баг. Это физика. Как строить системы, которые не верят ИИ на слово

«ОТВЕЧАЙ ТОЛЬКО ПРАВДУ. НЕ ВЫДУМЫВАЙ ФАКТЫ. ЕСЛИ НЕ ЗНАЕШЬ — СКАЖИ, ЧТО НЕ ЗНАЕШЬ!!!»

Это реальный system prompt. Реальный руководитель. Три восклицательных знака и капслок — для убедительности.

Модели плевать. Она сгенерирует несуществующую ссылку на Гарвард с уверенностью в 146%, потому что статистически там должна быть ссылка. В 2023 году нью-йоркский адвокат подал в суд документы с шестью прецедентами, которые придумал ChatGPT. Выдуманные дела, выдуманные цитаты, выдуманные номера страниц. Когда судья попросил копии — адвокат спросил у ChatGPT, существуют ли они. ChatGPT подтвердил: да, конечно.

Штраф — $5 000. К марту 2026 года таких инцидентов в судах — больше 1 200. Штрафы доросли до шестизначных сумм. Sixth Circuit в марте 2026 — $30 000 за один бриф.

И знаете, что объединяет все эти случаи? Ни один из них не был виной модели. Модель делала ровно то, для чего создана — генерировала наиболее вероятное продолжение текста.

Виноват процесс. В котором никто не проверяет output.

В прошлой статье [Системное мышление для внедрения ИИ: почему автоматизация хаоса даёт автоматизированный хаос] мы разобрали пайплайны, в статье [Промпт — это пожелание. Спека — это контракт.] разобрали спеки. Трубы и вода. Сегодня — фильтры. Что делать, когда модель врёт.

Не если, а когда.

Почему LLM врёт: next-token prediction и машина снов

Давайте разбираться.

LLM не «знает» факты. Она генерирует наиболее вероятное следующее слово на основе всех предыдущих. Это не база данных с функцией поиска — это машина снов. Она видела миллиарды текстов и научилась продолжать любой из них так, чтобы продолжение выглядело правдоподобно.

Следим за руками: «правдоподобно» и «правдиво» — это разные слова.

Kalai и Vempala в 2024 году доказали это математически. Буквально — теорема с доказательством. Любая языковая модель, которая хорошо предсказывает следующий токен на достаточно богатом распределении данных, обязана генерировать утверждения, не подкреплённые фактами. Это не баг реализации. Это следствие архитектуры. Как трение — следствие контакта поверхностей.

На практике это выглядит так. SimpleQA — бенчмарк из простых фактологических вопросов. Результат для новейших моделей 2025–2026: o3 уверенно врёт на 51% вопросов. GPT-5.2 — 38% accuracy. Даже Gemini 3 Pro, лидер, правильно отвечает на 72% — то есть ошибается на каждом четвёртом. И это не сложные философские дилеммы — это вопросы уровня «в каком году родился Эйнштейн».

На юридических запросах — ещё хуже. Stanford HAI в 2025 году обнаружил: LLM галлюцинируют от 69% до 88% времени. На вопросах о ключевом решении суда — минимум 75%.

И вот что контринтуитивно: «думающие» модели с chain-of-thought рассуждениями галлюцинируют больше, а не меньше. ICLR 2025 это подтвердил. Чем длиннее рассуждение — тем больше пространства для фантазий.

Если ваш LLM сейчас не врёт — подождите. Дайте ему задачу подлиннее.

Магическое мышление: промпты-заклинания

Оператор на [уровне L2] реагирует на галлюцинации магически. «Ты эксперт по маркетингу с 20-летним стажем». «Отвечай строго по фактам». «Если не уверен — скажи, что не знаешь».

Работает?

Данные 2025 года из npj Digital Medicine: продвинутые system prompts снизили галлюцинации GPT-4o с 53% до 23%. Прогресс? Да. Решение? Нет. 23% в медицинском контексте — это каждый четвёртый ответ с ошибкой. А простые инструкции вроде «будь правдивым» дают и того меньше — 2–5 процентных пунктов.

Писать «НЕ ВЫДУМЫВАЙ» капсом — всё равно что кричать на двигатель «НЕ ПЕРЕГРЕВАЙСЯ». Инженер не кричит на двигатель. Инженер ставит систему охлаждения.

Архитектор на L4 принимает галлюцинации как физику. Не борется — проектирует вокруг.

Три инструмента архитектора

1. Grounding — заземление на источники

Не проси модель «вспомнить» факт. Дай ей текст и скажи: «отвечай строго по этому куску». Это RAG — retrieval-augmented generation.

Stanford и HAI в 2025 году опубликовали первое peer-reviewed исследование коммерческих RAG-систем в юридическом домене. Без RAG GPT-4 галлюцинирует на 43% запросов. С RAG — 17–33%, в зависимости от реализации. Снижение реальное. Но не обнуление.

17% — это каждый шестой ответ. В юридическом документе. С RAG.

RAG — первый слой защиты. Не последний.

2. Separation of Concerns — генератор ≠ валидатор

Модель, которая пишет (temperature 0.7) — фантазёр. Модель, которая проверяет (temperature 0.0) — аудитор. Генератор и валидатор не должны быть одним агентом.

Это тот же принцип, что в статье про системное мышление [Системное мышление для внедрения ИИ: почему автоматизация хаоса даёт автоматизированный хаос]: петля обратной связи. Сгенерировал → проверил → ошибка вернулась в цикл → человек смотрит уже отфильтрованный результат.

Meta в 2023 году показали, что Chain-of-Verification (модель проверяет себя через серию уточняющих вопросов) даёт +23–28% на factuality. Но — важная оговорка — модель проверяет себя. Это как просить студента проверить свою же контрольную.

Настоящее separation of concerns — это когда генератор и валидатор разные: разные модели, разные промпты, разный temperature. Или, ещё лучше — валидатор вообще не LLM.

3. Детерминированная верификация — единственная гарантия

Текст проверяет LLM. Но код проверяет компилятор. Цифры проверяет Python-скрипт. Формат проверяет JSON Schema.

Компилятор не галлюцинирует. Тест не фантазирует. Линтер не выдумывает. Если задача формализуема — используй формальную проверку. Это единственный способ получить 100% гарантию.

Kleppmann в 2025 году написал: «AI сделает формальную верификацию мейнстримом». Модель генерирует — proof checker отвергает всё невалидное. LLM как генератор гипотез, детерминированный инструмент как фильтр. Не либо/либо — оба вместе.

Для нашей аудитории это переводится просто:

Собственник. Ваш AI-бот отвечает клиентам? Ответы проверяет скрипт на наличие запрещённых формулировок + второй LLM сверяет с базой знаний. Не один слой — два. Air Canada поставила бота без проверки. Суд признал: компания отвечает за ложь бота. Прецедент.

Руководитель. Команда генерирует отчёты с помощью AI? Числа валидируются скриптом против CRM. Выводы проверяет отдельная модель с доступом к источникам. Формат — JSON Schema. Рутинный QA уходит из рук людей.

Специалист. Пишешь код с Copilot? Компилятор и тесты — твоя страховка. Генерируешь текст? Заведи валидатора: отдельный промпт, отдельный контекст, задача — найти несоответствия. Это и есть переход от оператора к архитектору.

Надёжные системы из ненадёжных элементов

В 1956 году Джон фон Нейман доказал теорему, которая объясняет всё, что я написал выше.

Из компонентов, которые отказывают с вероятностью 1 из 100, можно построить систему с вероятностью отказа 1 из 100 миллиардов. Через дублирование и голосование большинства. Boeing 777 летает на трёх компьютерах, в каждом — три разнородных вычислительных канала. Девять каналов. Ни один не безотказен. Но самолёт безопаснее автомобиля.

Ключевое слово — *разнородных*. Три одинаковых LLM не помогут — у них одни и те же слепые зоны. LLM + retrieval + детерминированная проверка + человек на эскалациях — помогут. Потому что режимы отказов не коррелированы.

TCP доставляет данные без потерь по сети, которая *теряет пакеты по определению*. Не потому что сеть стала надёжной — а потому что протокол спроектирован для ненадёжной среды. Acknowledgement, ретрансмиссия, переупорядочивание.

Если ваш бизнес-процесс ломается от одной галлюцинации — у вас дерьмовый процесс, а не глупая нейросеть.

Надёжные системы строятся из ненадёжных элементов. Это не парадокс — это инженерия.

От заклинаний к архитектуре

Давайте зафиксируем.

Три статьи — одна формула:

Пайплайны [Системное мышление для внедрения ИИ: почему автоматизация хаоса даёт автоматизированный хаос]: не ускоряй узлы — перестраивай поток.

Спеки [Промпт — это пожелание. Спека — это контракт]: не проси «сделай красиво» — пиши контракт.

Фильтры (эта статья): не кричи «не ври» — строй верификацию.

Галлюцинации не исчезнут. Kalai и Vempala это доказали математически. Модели будут улучшаться — и улучшаются. Но zero hallucination — это как zero friction. Физически невозможно. Зато можно спроектировать систему, которая не доверяет ни одному элементу на слово.

Grounding. Separation of concerns. Детерминированная верификация. Три слоя. Не серебряная пуля — инженерная практика.

На курсе [AI Architect] мы учим строить системы, которые работают *несмотря на* ограничения модели. Не промптить громче — а проектировать умнее. Пайплайн, спека, верификация. Архитектура вместо заклинаний.

Фигачим 🔥

Источники и данные

- Kalai & Vempala, "Calibrated Language Models Must Hallucinate", STOC 2024 — математическое доказательство неизбежности галлюцинаций
- Не вендорное: Magesh et al., "Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools", Stanford RegLab + HAI, JELS 2025 — RAG-системы галлюцинируют 17–33%
- Не вендорное: Stanford HAI, 2025 — LLM галлюцинируют 69–88% на юридических запросах
- SimpleQA benchmark, 2024–2026 (ongoing) — o3: 51% галлюцинаций, GPT-5.2: 38% accuracy, Gemini 3 Pro: 72.1%
- npj Digital Medicine, 2025 — system prompts снижают галлюцинации GPT-4o с 53% до 23%
- ICLR 2025 (FSPO) — CoT-модели галлюцинируют больше на сложных фактологических задачах
- Dhuliawala et al. (Meta), "Chain-of-Verification", ACL Findings 2024 — самоверификация: +23–28% factuality
- Vendor research: Vectara HHEM Leaderboard, 2025–2026 — Claude ~3%, GPT-5.2 ~6%, Gemini 3 Pro ~6%
- Von Neumann, "Probabilistic Logics and Synthesis of Reliable Organisms from Unreliable Components", 1956
- Mata v. Avianca (S.D.N.Y. 2023) — первый судебный прецедент с AI-галлюцинациями
- Damien Charlotin, AI Hallucination Cases Database — 1 213+ инцидентов к марту 2026
- Sixth Circuit Court of Appeals, март 2026 — $30 000 санкций за fabricated citations
- Moffatt v. Air Canada (BC CRT, 2024) — компания ответственна за ложь чат-бота
- BetterUp + Stanford, "Workslop Report", 2025 — 40% AI-контента = мусор, ~$9M/год на 10K сотрудников
- Kleppmann, "AI Will Make Formal Verification Go Mainstream", 2025
- Авторские модели: [Эволюция специалиста L0-L6], [Структура ИИ-отрасли]