Третья Разновидность ИИ: Как модели, думающие "про себя", оставят позади GPT и CoT

Автор: Денис Аветисян

Знаете, есть один старый, немного пыльный, но совершенно гениальный фантастический фильм — "Крикуны". В конце там есть душераздирающая сцена. Главный герой, Джо, из последних сил добравшись до спасительного подземного бункера — последней надежды человечества на этой планете — пытается связаться по радио со своим другом Чаком, который должен быть внутри. Кругом кишат киборги-убийцы, поэтому спускаться вслепую — верная смерть.

— Чак, выходи! — кричит Джо в рацию, требуя визуального подтверждения.— Связь плохая, Джо, спускайся! — снова и снова отвечает знакомый голос.

Что-то не так. Чувствуя неладное, Джо задаёт контрольный вопрос — отсылку к их недавнему разговору об опере "Дон Жуан" Вольфганга Моцарта: "Дай мне поговорить с Доном Джованни". На что голос, не дрогнув, невозмутимо повторяет: "Это Дон Джованни, спускайся".

В этот момент героя прошибает холодный пот. Он всё понял. Это не просто "не Чак". Это значит, что Чака больше нет. Машина приняла его облик и голос уже после его убийства. Андроид идеально имитирует форму, но не помнит сути их последнего разговора. Андроид "вышел из контекстного окна", и это стоило его другу жизни.

Этот фильм снят по рассказу великого Филипа К. Дика "Вторая разновидность", где машины эволюционировали в неотличимые от человека копии. Так вот, эта сцена — лучшее объяснение самой большой и самой коварной проблемы современных больших языковых моделей, с которой мы все, даже не осознавая этого, сталкиваемся каждый день.

Чтобы понять, насколько мы близки к сцене с "Чаком", давайте быстро пробежимся по краткой истории эволюции этих удивительных созданий.

Всего несколько лет назад случилось чудо. Машины научились говорить. Да, они были огромными, неуклюжими, жили в гигантских, гудящих дата-центрах и потребляли электричество в масштабах небольшого города, но, чёрт возьми, они заговорили! Как мы выяснили в моей первой статье, они научились так хорошо переводить и обобщать тексты, что смогли заменить облачные сервисы прямо у меня дома.

Но у них было фундаментальное ограничение. Они — "однопроходные". Это как гениальный импровизатор в комедийном клубе, который может выдать блестящую, остроумную фразу в ответ на любой ваш вопрос, но совершенно не умеет планировать собственное выступление на два шага вперёд.

Тогда инженеры придумали остроумный "костыль". Они научили модели "бормотать себе под нос", проговаривая каждый шаг решения сложной задачи. И это сработало! Модели начали решать логические задачки и писать код. Наш Когерент+ai — это самый что ни на есть state-of-the-art представитель этого поколения. Он "думает вслух", чтобы просеять рыночный шум и выдать вам чистую аналитику.

Но, как и любой костыль, он хрупок. Одна ошибка в цепочке рассуждений — и вся конструкция с грохотом рушится. Результат нестабилен. Это постоянные пробы и ошибки, где успех зависит от сотен мелочей, от правильной формулировки запроса до фазы Луны.

И вот, пока весь мир пытался укрепить этот "костыль", придумывая всё более сложные подпорки и инструкции, на горизонте появилась та самая "третья разновидность". Модель, которая может рассуждать не "вслух", а "про себя", почти как человек.

Вдохновение, как это часто бывает, подсмотрели у лучшего компьютера во Вселенной — нашего собственного мозга. И знаете, что самое изящное? Это не просто красивая метафора. Создатели модели буквально подсмотрели, как наш мозг дирижирует своим внутренним оркестром.

У нас ведь тоже есть разные "скорости" мышления, которые в нейробиологии связывают с разными ритмами мозга. Есть медленные, глубокие тета-волны (4-8 Гц) для планирования и памяти. А есть быстрые гамма-волны (30-100 Гц) для мгновенной концентрации и решения задач "здесь и сейчас".

Новая архитектура, получившая название Hierarchical Reasoning Model (HRM), имитирует именно этот принцип. Внутри неё живут два взаимосвязанных модуля:

High-level (H) модуль — "Стратег": Он работает на медленном "тета-ритме". Его задача — посмотреть на проблему целиком, сформировать общую стратегию и сказать: "Так, сейчас нам нужно решить вот эту маленькую подзадачу".
Low-level (L) модуль — "Тактик": Он работает на быстром "гамма-ритме". Получив приказ от "Стратега", он бросает все силы на выполнение этой конкретной, детальной задачи, быстро перебирая варианты.

И вот как они работают вместе. "Тактик" быстро-быстро решает свою задачку, находит локальный, промежуточный ответ и "докладывает" наверх. А "Стратег", получив этот доклад, обдумывает его, ставит новую, уточнённую цель и... как бы "перезагружает" Тактика для следующего рывка. Снова и снова. Учёные назвали этот элегантный танец "иерархической конвергенцией".

Весь этот внутренний диалог происходит в так называемом "латентном пространстве". Проще говоря, модель "думает" без слов. Она не тратит время и энергию на то, чтобы пробормотать себе под нос каждый шаг. Она просто решает задачу. И это меняет абсолютно всё.

Всё это звучит красиво в теории, правда? "Стратег", "Тактик", "ритмы мозга"... Но работает ли это на самом деле? Или это просто очередная красивая академическая идея, которая разобьётся о суровую реальность?

Чтобы это выяснить, создатели модели устроили ей настоящий экзамен. Они взяли задачи, на которых современные гиганты вроде GPT-4 и Claude стабильно "ломаются". Это не тесты на эрудицию, где нужно пересказать Википедию. Это задачи на чистое, холодное мышление:

Sudoku-Extreme: Не те простенькие судоку из газет, а сложнейшие головоломки, которые требуют многошагового планирования и "поиска с возвратом" (когда вы пробуете вариант, понимаете, что зашли в тупик, и возвращаетесь на несколько шагов назад).
Maze-Hard: Поиск оптимального, самого короткого пути в гигантских лабиринтах 30х30.
ARC-AGI: Пожалуй, самый сложный тест на "жидкий интеллект" — способность находить абстрактные закономерности в визуальных загадках, видя всего 2-3 примера.

И знаете, что самое смешное? Наш "малыш" HRM, имея всего ~27 миллионов параметров (это в сотни, а то и тысячи раз меньше, чем у гигантов!), обученный всего на 1000 примеров для каждой задачи, без всякого предварительного обучения, показал просто шокирующие результаты.

Представьте себе эту картину. На ринг выходят два бойца. В одном углу — гигантская LLM, сверкающая миллиардами параметров, обученная на всём интернете. В другом — наш скромный "малыш" HRM.

Гонг!

Раунд "Судоку": Гигант, пытаясь "думать вслух", путается в шагах и падает. Точность — 0%. Малыш HRM, думая "про себя", спокойно решает головоломку. Точность — почти 100%.

Раунд "Лабиринт": Гигант снова теряется. Точность — 0%. Малыш находит оптимальный путь. Точность — почти 100%.

Это не просто победа. Это нокаут. И он доказывает одну простую вещь: в мире сложных рассуждений дело не в размере. Дело в архитектуре.

Итак, маленький, но "умно" спроектированный ИИ побеждает гигантов. Звучит здорово. Но что это значит для нас, простых пользователей, которые просто хотят, чтобы ИИ работал нормально? А вот что.

Мы возвращаемся к нашему бедному Чаку. Помните, почему он "забыл" начало разговора и попался в ловушку? Потому что память, или "контекстное окно", у классических больших моделей — это невероятно дорогая и ресурсоёмкая штука. Чтобы сделать модель чуть "умнее" и "памятливее", нужно экспоненциально увеличивать количество "железа" и энергии.

А теперь представьте себе HRM. Благодаря своей невероятно эффективной архитектуре, где "думание" происходит без слов, она требует в разы меньше ресурсов.

И это означает простую, но революционную вещь: на той же самой видеокарте, где вчера едва-едва помещалась модель с крошечным окошком памяти, сегодня может комфортно работать модель с контекстным окном в десятки раз больше!

Это значит, что мы можем переводить огромные документы целиком, а не кусками. Анализировать не один финансовый отчёт, а сразу десять, видя всю картину. Наш ИИ-собеседник больше не забудет, о чём мы говорили пять минут назад...

Но решена ли проблема "Чака" на самом деле?

В рассказе Дика машины эволюционировали сами, тайно, и герои понимали, что столкнулись с новой "разновидностью", когда было уже слишком поздно. В мире ИИ всё происходит так же стремительно, только у нас есть возможность наблюдать за этим в прямом эфире.

HRM и подобные ей архитектуры — это не просто очередное "улучшение". Это фундаментальный сдвиг. Это переход от эры эрудитов-импровизаторов к эре настоящих, эффективных мыслителей. И этот переход происходит прямо сейчас.

Но главный вопрос, который мы задали в самом начале, остается открытым. Поможет ли новая, более эффективная архитектура нашему бедному "Чаку" вспомнить, кто такой Дон Джованни? Или он так и будет путать Джо с Вольфгангом, потому что проблема лежит глубже, чем мы думали, и дело не только в объёме памяти, но и в самой природе мышления?

Мы уже начали тестировать "Чака" на новой дистанции. И результатами этих, без преувеличения, захватывающих экспериментов мы обязательно поделимся в следующих публикациях.