Третья Разновидность ИИ: Как модели, думающие "про себя", оставят позади GPT и CoT

Кадр из фильма Крикуны (1995)
Кадр из фильма Крикуны (1995)

Автор: Денис Аветисян

1. Вступление: "Чак, выходи!"

Знаете, есть один старый, немного пыльный, но совершенно гениальный фантастический фильм — "Крикуны". В конце там есть душераздирающая сцена. Главный герой, Джо, из последних сил добравшись до спасительного подземного бункера — последней надежды человечества на этой планете — пытается связаться по радио со своим другом Чаком, который должен быть внутри. Кругом кишат киборги-убийцы, поэтому спускаться вслепую — верная смерть.

— Чак, выходи! — кричит Джо в рацию, требуя визуального подтверждения.— Связь плохая, Джо, спускайся! — снова и снова отвечает знакомый голос.

Что-то не так. Чувствуя неладное, Джо задаёт контрольный вопрос — отсылку к их недавнему разговору об опере "Дон Жуан" Вольфганга Моцарта: "Дай мне поговорить с Доном Джованни". На что голос, не дрогнув, невозмутимо повторяет: "Это Дон Джованни, спускайся".

В этот момент героя прошибает холодный пот. Он всё понял. Это не просто "не Чак". Это значит, что Чака больше нет. Машина приняла его облик и голос уже после его убийства. Андроид идеально имитирует форму, но не помнит сути их последнего разговора. Андроид "вышел из контекстного окна", и это стоило его другу жизни.

Этот фильм снят по рассказу великого Филипа К. Дика "Вторая разновидность", где машины эволюционировали в неотличимые от человека копии. Так вот, эта сцена — лучшее объяснение самой большой и самой коварной проблемы современных больших языковых моделей, с которой мы все, даже не осознавая этого, сталкиваемся каждый день.

2. Краткая история почти человеческих машин

Чтобы понять, насколько мы близки к сцене с "Чаком", давайте быстро пробежимся по краткой истории эволюции этих удивительных созданий.

Поколение 1: Гиганты, которые научились говорить (Llama, GPT-3)

Всего несколько лет назад случилось чудо. Машины научились говорить. Да, они были огромными, неуклюжими, жили в гигантских, гудящих дата-центрах и потребляли электричество в масштабах небольшого города, но, чёрт возьми, они заговорили! Как мы выяснили в моей первой статье, они научились так хорошо переводить и обобщать тексты, что смогли заменить облачные сервисы прямо у меня дома.

Но у них было фундаментальное ограничение. Они — "однопроходные". Это как гениальный импровизатор в комедийном клубе, который может выдать блестящую, остроумную фразу в ответ на любой ваш вопрос, но совершенно не умеет планировать собственное выступление на два шага вперёд.

Поколение 2: Мыслители "вслух" (Chain-of-Thought, CoT)

Тогда инженеры придумали остроумный "костыль". Они научили модели "бормотать себе под нос", проговаривая каждый шаг решения сложной задачи. И это сработало! Модели начали решать логические задачки и писать код. Наш Когерент+ai — это самый что ни на есть state-of-the-art представитель этого поколения. Он "думает вслух", чтобы просеять рыночный шум и выдать вам чистую аналитику.

Но, как и любой костыль, он хрупок. Одна ошибка в цепочке рассуждений — и вся конструкция с грохотом рушится. Результат нестабилен. Это постоянные пробы и ошибки, где успех зависит от сотен мелочей, от правильной формулировки запроса до фазы Луны.

3. Третья Разновидность: Модели, которые думают "про себя"

И вот, пока весь мир пытался укрепить этот "костыль", придумывая всё более сложные подпорки и инструкции, на горизонте появилась та самая "третья разновидность". Модель, которая может рассуждать не "вслух", а "про себя", почти как человек.

Вдохновение, как это часто бывает, подсмотрели у лучшего компьютера во Вселенной — нашего собственного мозга. И знаете, что самое изящное? Это не просто красивая метафора. Создатели модели буквально подсмотрели, как наш мозг дирижирует своим внутренним оркестром.

У нас ведь тоже есть разные "скорости" мышления, которые в нейробиологии связывают с разными ритмами мозга. Есть медленные, глубокие тета-волны (4-8 Гц) для планирования и памяти. А есть быстрые гамма-волны (30-100 Гц) для мгновенной концентрации и решения задач "здесь и сейчас".

Новая архитектура, получившая название Hierarchical Reasoning Model (HRM), имитирует именно этот принцип. Внутри неё живут два взаимосвязанных модуля:

  • High-level (H) модуль — "Стратег": Он работает на медленном "тета-ритме". Его задача — посмотреть на проблему целиком, сформировать общую стратегию и сказать: "Так, сейчас нам нужно решить вот эту маленькую подзадачу".
  • Low-level (L) модуль — "Тактик": Он работает на быстром "гамма-ритме". Получив приказ от "Стратега", он бросает все силы на выполнение этой конкретной, детальной задачи, быстро перебирая варианты.

И вот как они работают вместе. "Тактик" быстро-быстро решает свою задачку, находит локальный, промежуточный ответ и "докладывает" наверх. А "Стратег", получив этот доклад, обдумывает его, ставит новую, уточнённую цель и... как бы "перезагружает" Тактика для следующего рывка. Снова и снова. Учёные назвали этот элегантный танец "иерархической конвергенцией".

Весь этот внутренний диалог происходит в так называемом "латентном пространстве". Проще говоря, модель "думает" без слов. Она не тратит время и энергию на то, чтобы пробормотать себе под нос каждый шаг. Она просто решает задачу. И это меняет абсолютно всё.

4. Маленький робот, который решает Судоку

Всё это звучит красиво в теории, правда? "Стратег", "Тактик", "ритмы мозга"... Но работает ли это на самом деле? Или это просто очередная красивая академическая идея, которая разобьётся о суровую реальность?

Чтобы это выяснить, создатели модели устроили ей настоящий экзамен. Они взяли задачи, на которых современные гиганты вроде GPT-4 и Claude стабильно "ломаются". Это не тесты на эрудицию, где нужно пересказать Википедию. Это задачи на чистое, холодное мышление:

  • Sudoku-Extreme: Не те простенькие судоку из газет, а сложнейшие головоломки, которые требуют многошагового планирования и "поиска с возвратом" (когда вы пробуете вариант, понимаете, что зашли в тупик, и возвращаетесь на несколько шагов назад).
  • Maze-Hard: Поиск оптимального, самого короткого пути в гигантских лабиринтах 30х30.
  • ARC-AGI: Пожалуй, самый сложный тест на "жидкий интеллект" — способность находить абстрактные закономерности в визуальных загадках, видя всего 2-3 примера.

И знаете, что самое смешное? Наш "малыш" HRM, имея всего ~27 миллионов параметров (это в сотни, а то и тысячи раз меньше, чем у гигантов!), обученный всего на 1000 примеров для каждой задачи, без всякого предварительного обучения, показал просто шокирующие результаты.

Представьте себе эту картину. На ринг выходят два бойца. В одном углу — гигантская LLM, сверкающая миллиардами параметров, обученная на всём интернете. В другом — наш скромный "малыш" HRM.

Гонг!

Раунд "Судоку": Гигант, пытаясь "думать вслух", путается в шагах и падает. Точность — 0%. Малыш HRM, думая "про себя", спокойно решает головоломку. Точность — почти 100%.

Раунд "Лабиринт": Гигант снова теряется. Точность — 0%. Малыш находит оптимальный путь. Точность — почти 100%.

Это не просто победа. Это нокаут. И он доказывает одну простую вещь: в мире сложных рассуждений дело не в размере. Дело в архитектуре.

5. Главный приз: Прощай... или не прощай, Чак?

Итак, маленький, но "умно" спроектированный ИИ побеждает гигантов. Звучит здорово. Но что это значит для нас, простых пользователей, которые просто хотят, чтобы ИИ работал нормально? А вот что.

Мы возвращаемся к нашему бедному Чаку. Помните, почему он "забыл" начало разговора и попался в ловушку? Потому что память, или "контекстное окно", у классических больших моделей — это невероятно дорогая и ресурсоёмкая штука. Чтобы сделать модель чуть "умнее" и "памятливее", нужно экспоненциально увеличивать количество "железа" и энергии.

А теперь представьте себе HRM. Благодаря своей невероятно эффективной архитектуре, где "думание" происходит без слов, она требует в разы меньше ресурсов.

И это означает простую, но революционную вещь: на той же самой видеокарте, где вчера едва-едва помещалась модель с крошечным окошком памяти, сегодня может комфортно работать модель с контекстным окном в десятки раз больше!

Это значит, что мы можем переводить огромные документы целиком, а не кусками. Анализировать не один финансовый отчёт, а сразу десять, видя всю картину. Наш ИИ-собеседник больше не забудет, о чём мы говорили пять минут назад...

Но решена ли проблема "Чака" на самом деле?

6. Заключение: Новые тесты на старой базе

В рассказе Дика машины эволюционировали сами, тайно, и герои понимали, что столкнулись с новой "разновидностью", когда было уже слишком поздно. В мире ИИ всё происходит так же стремительно, только у нас есть возможность наблюдать за этим в прямом эфире.

HRM и подобные ей архитектуры — это не просто очередное "улучшение". Это фундаментальный сдвиг. Это переход от эры эрудитов-импровизаторов к эре настоящих, эффективных мыслителей. И этот переход происходит прямо сейчас.

Но главный вопрос, который мы задали в самом начале, остается открытым. Поможет ли новая, более эффективная архитектура нашему бедному "Чаку" вспомнить, кто такой Дон Джованни? Или он так и будет путать Джо с Вольфгангом, потому что проблема лежит глубже, чем мы думали, и дело не только в объёме памяти, но и в самой природе мышления?

Мы уже начали тестировать "Чака" на новой дистанции. И результатами этих, без преувеличения, захватывающих экспериментов мы обязательно поделимся в следующих публикациях.

7. Ссылки

Если не смотрели фильм:

Что такое Когерент+ai:

Стигматы ИИ:

Модели раннего поколения:

4
3 комментария