Yan Lukashin

Промпт — это пожелание. Спека — это контракт.

«Напиши мне стратегию выхода на новый рынок».

Это реальный промпт. Реальный руководитель отдела маркетинга. Реальная компания на 200 человек. Он скормил это Claude, получил 12 страниц текста, показал директору на совещании. Директор спросил три вопроса. Ни на один в документе не было ответа.

Потому что агент сделал ровно то, что попросили. Написал стратегию. Красивую, структурированную, с подзаголовками. Только не ту.

Это не баг модели. Это баг постановки задачи.

В прошлой статье [Системное мышление для внедрения ИИ: почему автоматизация хаоса даёт автоматизированный хаос] мы разобрали, почему автоматизация хаоса даёт автоматизированный хаос. Системное мышление, пайплайны, петли обратной связи. Всё верно — но есть нюанс. Можно построить идеальный пайплайн и кормить его мусором на входе.

Вход в пайплайн — это то, как вы ставите задачу. И вот тут у большинства — дыра.

Почему агенты тупят на длинном

METR — некоммерческая исследовательская организация — замерили, как фронтирные модели справляются с задачами разной длины. Результат неутешительный.

На задачах, которые человек делает за 4 минуты — почти 100% успешность. На задачах длиннее 4 часов — меньше 10%. Claude 3.7 Sonnet пересекает 50%-порог где-то на 50 минутах.

Следим за руками: после 50 минут ваш агент скорее ошибётся, чем сделает правильно.

А теперь накиньте сверху мультишаговость. Google DeepMind посчитали: если каждый шаг агентного процесса имеет 95% точности (что отлично), то за 10 шагов end-to-end успешность падает до 60%. При 90% на шаг — до 35%.

Это compound error. Ошибки не складываются — они перемножаются. Каждый следующий агент принимает ошибочный вывод предыдущего за факт. Система генерирует не мусор — она генерирует уверенную чушь. Выглядит как результат. Читается как результат. Не является результатом.

Почему человек справляется лучше? Потому что человек компенсирует кривое ТЗ контекстом. Ты говоришь стажёру «сделай красиво» — и он идёт смотреть, что делали до него, спрашивает коллег, гуглит примеры. Он додумывает.

Агент не додумывает. Агент догенеривает. Это принципиально разные вещи.

Когда ты даёшь агенту промпт — ты даёшь пожелание. Когда ты даёшь спеку — ты даёшь контракт.

Что такое спека и почему это не PRD

Спека — это не документ на 20 страниц. Это контракт из пяти пунктов:

1. Outcome. Что должно быть правдой, когда работа закончена. Не «напиши стратегию», а «документ на 2 страницы с тремя сценариями выхода, unit-экономикой для каждого и рекомендацией с обоснованием».

2. Scope. Что входит в задачу. Рынок — Казахстан. Горизонт — 12 месяцев. Данные — из нашей CRM за последний год.

3. Non-scope. Что не входит. Это важнее, чем кажется. Агент без ограничений будет расширять задачу бесконечно. Martin Fowler тестировал: агенты добавляли фичи, которых не было в спеке, меняли допущения по ходу работы и заявляли «done» при сломанном билде. Non-scope — это забор. Без забора агент уходит в поле.

4. Constraints. Какие решения уже приняты. Какие ограничения есть. Бюджет, формат, тональность, запрещённые подходы.

5. Verification. Как проверить, что работа сделана правильно. Это самый недооценённый пункт. Без него у вас нет критерия, чтобы отличить результат от workslop.

Пять полей. Markdown-файл. Никаких фреймворков не нужно.

Есть красивая параллель из экономики. В 2019 году исследователи из Гарварда и Торонто опубликовали работу: проблема AI alignment структурно идентична проблеме неполных контрактов. Когда ты нанимаешь подрядчика — контракт всегда неполный. Невозможно предусмотреть всё. Но хороший контракт фиксирует, что делать, когда что-то идёт не так. Кто решает спорные вопросы. Какие границы.

Промпт — это устная договорённость. «Ну ты понял, сделай нормально». Спека — подписанный контракт. Разница не в том, что написано. Разница в том, что происходит, когда всё пойдёт не по плану.

А оно пойдёт.

Три уровня: промпт → спека → живой контракт

Помните [модель эволюции специалиста]?

L2 — оператор. Промптит и надеется. «Напиши мне коммерческое предложение». Получает что-то. Правит руками. Тратит час на то, что мог бы сделать за 15 минут — если бы поставил задачу точно. Но ему кажется, что промптинг — это и есть навык.

L3 — делегатор. Пишет спеку один раз перед задачей. Фиксирует outcome, scope, non-scope. Даёт агенту контекст: «вот наш tone of voice, вот пример хорошего КП, вот данные клиента». Результат — на порядок точнее. Переделок — на порядок меньше.

L4 — архитектор. Спека живёт. Обновляется по ходу работы. Агент отчитывается о прогрессе и отклонениях. Если задача большая — разбита на подзадачи, каждая со своей мини-спекой. Проверка встроена в процесс, а не висит на человеке.

Для каждой из наших аудиторий это выглядит по-разному.

Собственник МСБ — перестаёт быть бутылочным горлышком. Вместо «проверь каждый текст» — спека с tone of voice, списком запрещённых формулировок и автоматической проверкой. Он смотрит дашборд, а не каждый output.

Руководитель функции — получает артефакт для команды. «Вот как мы ставим задачи AI-агентам в нашем отделе». Не каждый сам по себе промптит — есть стандарт. Thoughtworks в 2025 году назвали это ключевым сдвигом: AI — командная технология, не индивидуальный усилитель. Shared specs > индивидуальные промпты.

Специалист — перестаёт быть «тем, кто хорошо промптит» и становится тем, кто проектирует агентные процессы. Карьерный апгрейд. Не оператор — архитектор.

Когда спеки НЕ нужны

Было бы нечестно не сказать.

Спеки — не серебряная пуля. И есть ситуации, где они вредят больше, чем помогают.

Прототипирование. Когда ты ещё не знаешь, что строишь — спека тормозит. Один промпт, быстрый результат, итерация. Exploratory work лучше без контракта.

Задачи до 30 минут. Написать письмо, обобщить документ, перевести текст. Тут спека — это overhead. Один хороший промпт — достаточно.

Первый контакт с темой. «Расскажи мне про X» — это нормальный промпт. Ты ещё не знаешь, что спрашивать. Спека появляется, когда ты уже понимаешь контуры задачи.

Фаулер честно зафиксировал: даже с детальной спекой агенты отклоняются. Добавляют то, о чём не просили. Меняют допущения. Заявляют «готово» при сломанном результате. Спека не гарантирует идеальный output — она гарантирует, что отклонение видно. Что есть контракт, относительно которого можно оценить: сделано или нет.

Критики говорят: жёсткое следование спеке — это waterfall 2.0. И они правы, если спека мёртвая. Гранитная плита, высеченная до начала работы и неприкосновенная.

Но спека должна быть живой. Обновляться по ходу. Фиксировать новые решения. Документировать, почему отклонились от плана.

Не гранитная плита — навигационная карта. Маршрут может меняться. Но без карты ты просто гуляешь.

От пожелания к контракту

Давайте зафиксируем.

42% компаний в 2025 году бросили большинство AI-инициатив. Средняя стоимость заброшенного проекта — $4.2 миллиона. Каждый из этих проектов начинался с того, что кто-то сказал: «Давайте попробуем AI для [вставить задачу]». Без чёткого outcome. Без scope. Без verification.

Промпт — это пожелание. Спека — это контракт.

Переход простой. Перед следующей задачей для AI-агента — любой, не обязательно кодинг — напиши пять строк:

1. Что должно быть правдой, когда задача выполнена
2. Что входит в задачу
3. Что НЕ входит
4. Какие ограничения
5. Как проверить результат

Пять строк. Markdown-файл. Без фреймворков, без SpecKit, без OpenSpec.

Это следующий шаг после [системного мышления]. Ты разобрался в пайплайнах и петлях обратной связи — теперь разберись с входом в пайплайн. Потому что мусор на входе гарантирует мусор на выходе, какой бы красивой ни была архитектура.

На курсе [AI Architect] мы не учим промптить. Мы учим специфицировать — ставить задачу так, чтобы система работала без твоего постоянного вмешательства. Спека, пайплайн, петля обратной связи. Не магия — инженерия.

Фигачим 🔥

Источники и данные

- METR, "Measuring AI Ability to Complete Long Tasks", 2025 (arXiv:2503.14499) — деградация агентов: ~100% на <4 мин, <10% на >4 часов
- Google DeepMind, "Towards a Science of Scaling Agent Systems" — compound error в мульти-агентных системах
- Martin Fowler, "Exploring Gen AI: SDD Tools", 2025 — hands-on эксперименты, агенты отклоняются от спек
- Hadfield-Menell & Hadfield, "Incomplete Contracting and AI Alignment", AIES-19 — контрактная модель alignment
- Thoughtworks, "Spec-Driven Development: Unpacking 2025 New Engineering Practices" — SDD как командная практика
- S&P Global, 2025 (1000+ компаний) — 42% бросили AI-инициативы, средняя стоимость: $4.2M
- Vendor research: GitHub Spec Kit — ~75k stars, формализация SDD в open-source
- Авторские модели: [Эволюция специалиста L0-L6], [Процесс становится продуктом]