А теперь вещь, которую обходят в девяти из десяти разговоров про ИИ.
Мышление не равно языку.
Людвиг Витгенштейн, 1921, Tractatus: «
Границы моего языка — это границы моего мира». Сто лет назад это была философия. Сегодня это инженерия.
В этологии есть понятие
umwelt — перцептивная клетка вида, определённая его сенсорной системой. Якоб фон Икскюль в начале XX века описал клеща. Весь его мир — три сигнала. Запах масляной кислоты — рядом млекопитающее. Температура 37 — нашёл. Прикосновение к шерсти — вгрызаемся. Всё. Никакого «
леса», «
дождя», «
звука». Три входа, три реакции, одна жизнь.
Мы тоже в своём
umwelt. Просто клетка сложнее, и это даёт иллюзию, что мы видим всю реальность.
Теперь поверх биологической клетки — клетка языка.
Винавер с коллегами в 2007-м (PNAS) показал русским и американцам оттенки синего. В русском есть «синий» и «голубой» — два разных токена. В английском один blue. Русские быстрее отличают цвета, когда они лежат по разные стороны языковой границы. Американцам всё равно. А если заткнуть русским внутренний словарь — попросить одновременно повторять цифры — преимущество пропадает.
Категории из языка работают уже на уровне перцепции. Буквально в том, что видят глаза за долю секунды.
Дэниел Эверетт прожил годы с племенем Пираха в Амазонии. У них нет прошедшего и будущего времени, нет чисел, нет слов для цветов. Они физически не могут точно сопоставить восемь камней восьми орехам. Не от упрямства. Нет токена — нет операции.
А теперь берём этот узкий, протекающий канал — и втыкаем в машину.
В голове концепция — многомерная, связная, с перекрёстными ссылками, с эмоциональным фоном, с намёками, которые я сам не успеваю проговорить. Я сажусь писать. Клавиатура — несколько десятков бит в секунду. Линейная цепочка букв. То, что вы читаете, — это уже сжатие. Очень сильное сжатие.
Язык — lossy compression.Слово «дерево» не описывает дерево. Оно вызывает в голове собеседника его собственную картинку. Если мы оба видели одно дерево — повезло. Если нет — каждый достаёт своё и думает, что мы говорим об одном.
Тысячи лет это работало, потому что собеседник был таким же человеком. Он додумывал. Он достраивал пропущенное. Он знал, когда «скоро» значит «срочно».
Посмотри теперь на LLM под этим углом. У модели есть токенизатор — список кусочков, на которые она режет слова. Всё, что модель «понимает», — паттерны между токенами. Работы последних лет показывают: значительная доля «сбоев рассуждения» у LLM — артефакты токенизации. Знание есть, размер достаточный, модель всё равно спотыкается, потому что не может ясно думать о концепте, для которого нет чистой токенизации.
Зеркально. У нас в голове тоже «токены» — слова, концепты, категории, достанутые от языка и культуры. Нет токена — не думаешь. Или думаешь криво и сам этого не замечаешь.
Проще всего ловишь на перечитывании. Читаешь книгу в двадцать, перечитываешь в тридцать пять — будто другая книга. Текст не изменился. У тебя появились новые токены. И они открыли слои, которых раньше для тебя просто не было.
Машина, в которую мы сейчас втыкаем язык как интерфейс, — это наша клетка, вынесенная наружу и ставшая видимой. Всё, что она «галлюцинирует», «путает», «не понимает», — это структура наших собственных ошибок. Эта мысль — отдельный разбор в [
«Язык — это яд»].
Что могло пойти не так — сейчас и разберём.