BDH-GPU и линейное внимание: как «Дракон» обещает заменить классический трансформер и снять предел контекста

На прошлой неделе в посте про дебаты вокруг Post-Transformer всплыл один и тот же вопрос: можно ли встроить долговременную память прямо в архитектуру модели, а не в её контекстное окно. Один из ответов уже лежит на столе и называется он линейное внимание в высокой размерности с постоянным состоянием.

В стандартном трансформере память это, по сути, кеш контекста: модель тащит за собой все предыдущие ключи и значения в небольшой размерности d и затем над ними считает внимание. Никакой настоящей памяти там нет, есть только всё более длинная история токенов, которую надо каждый раз пересчитывать.

Архитектура BDH (Dragon Hatchling) идёт другим путём. У неё фиксированное и большое пространство состояний, которое макроскопически ведёт себя как ассоциативная память, чем то похожая на KV-кеш, но устроенная иначе. В каждом слое есть постоянная матрица состояния ρ размером n на d, где n это нейронная или концептуальная размерность (счёт идёт на миллиарды), а d это низкоранговая синаптическая размерность, причём d сильно меньше n.

Ключевая идея в том, что состояние привязано к нейронам и живёт в высокоразмерном пространстве, а не в стопке прошлых токенов. Если трансформер хранит историю токенов, то BDH-GPU (тензор-дружелюбная версия архитектуры) эволюционирует состояние, по духу ближе к моделям пространства состояний (SSM).

Здесь авторы напрашиваются на аналогию с мозгом. Мозг не дописывает каждое переживание в конец огромного транскрипта, у него ограниченный, но очень большой субстрат из нейронов и синапсов, а опыт меняет связи разреженно и сильно параллельно. BDH-GPU выражает близкую идею вычислительно: память не как удлинение контекстного окна, а как большой эволюционирующий внутренний стейт.

Что из этого вытекает на практике. Нет жёсткого контекстного окна трансформерного типа, значит, рассуждающая модель в пределе может работать с практически бесконечным контекстом. Линейное внимание разворачивается в большой нейронной размерности, активации остаются разреженными и положительными, а вместо журнала токенов мы получаем постоянное состояние, которое реально эволюционирует от шага к шагу.

Главный сдвиг тут не количественный, а концептуальный. Долгое рассуждение, возможно, рождается не из того, что мы храним всё больше токенов, а из того, что у модели улучшается динамика её собственного состояния. Если эта линия выстрелит, индустрии придётся пересобирать инфраструктуру под обучение и инференс, где доминирует не длина контекста, а качество эволюции скрытого стейта.