Google опять сделали это: Титан и Мираж — новый "Attention"?

Для тех, кто воспринимает лучше на слух — сгенерировал видосик в NotebookLM. Как обычно, визуальный треш под четкую озвучку.

В 2017 году Google опубликовали статью Attention Is All You Need — она положила начало современным LLM, построенным на трансформерах. Но, кажется, из этой технологии высосали все, что могли. Уже некоторое время ученые трудятся над изучением продвинутых механизмов внимания (именно эта штука сделала все LLM такими умными) или над его альтернативами. Зачем? Потому что "внимание" очень прожорливо на вычисления. И при большом контекстном окне оно становится очень дорогим.

Titans расправил плечи

Именно эту проблему Гугл и взялся решить: создать "длинную память" у модели, но сделать ее вычислительно дешевой. Подглядели, как всегда, у человека в мозгах! Мы запоминаем ту информацию, которая вызывает у нас мощную эмоцию. А в простейшем виде — ту, что заставляет удивляться. Этой же логике последовали и в новой архитектуре "Titans", которая запоминает те факты, которые сильно отличается от остальной ожидаемой информации.

Это апгрейд и микс двух архитектур:

  • старого доброго трансформера с механизмом внимания.
  • SSM (State Space Models). Архитектура нашумевшая не так сильно, но стоящая внимания. В ней, по сути, заменили механизм внимания на так называемую свертку.

Модель оценивает важность токенов через метрику «удивления», замеряя насколько вероятным был каждый токен. Если токен был мало вероятным, но появился — модель сконцентрирует на нем внимание и запомнит. Еще и захватив немного контекста вокруг "удивительного" токена. Это происходит за счет встроенного механизма инерции.

Также архитектура использует адаптивное "забывание", чтобы сохранять только полезный контекст на очень длинных последовательностях

Все LLM — это лишь MIRAS

MIRAS — это фреймворк, по которому и изобрели архитектуру Titans. Этот фреймворк позволяет по-новому взглянуть на существующие архитектуры языковых моделей. Он смотрит на них как на модули ассоциативной памяти. Проще говоря любая модель — это не что иное, как некий механизм, который достает из памяти ассоциации на заданный токен.

Схема фреймворка MIRAS из официальной статьи.
Схема фреймворка MIRAS из официальной статьи.

Фреймворк раскладывает архитектуры моделей на:

  1. Архитектуру ассоциативной памяти (associative memory architecture) — в каком виде сохраняется информация в модели.
  2. Цель смещения внимания (attentional bias objective) — что именно модель учиться считать важным.
  3. Шлюз удержания (retention gate) — как модель балансирует между запоминанием нового и сохранением старого.
  4. Алгоритм памяти (memory learning algorithm) — собственно ключевой алгоритм запоминания, например градиентный спуск.

Что у вас на носу? - Сопля?! - Нет! Новая волна LLM!

Titans обошел даже такую жирную и мощную модель как GPT-4 на бенчмарке BABILong. Он специально замеряет ризонинг моделей на данных, где факты раскиданы очень далеко друг от друга. То есть модели либо нужно держать во внимании огромный контекст (что делают современные LLM), либо работать с ним очень эффективно (что Titans и делает на контексте аж 2М+ токенов, — это, кстати, больше, чем контекстное окно Gemini 3).

Новая архитектура является просто таки очевидным преимуществом, тк работа с контекстом — это один из важнейших аспектов конкуренции между моделями. А значит — ждем в следующем году массовую адаптацию нового трюка с "удивлением".

Подписывайтесь на Telegram Заместители.

1
2 комментария