Очередной «биологичный» LLM, который сломается в продакшене - The Dragon Hatchling (BDH)

Автор: Денис Аветисян

Вот парадокс: мы гоняемся за все более сложными моделями, накачиваем их параметрами, а ведь мозг, эталон эффективности, работает на совершенно иных принципах. Зачем нам миллиарды связей, если достаточно локальных взаимодействий, как в крошечной сети нейронов? И вот, появляется статья, обещающая отойти от этого безумия, предлагая архитектуру, вдохновленную биологией. Неужели, наконец, кто-то задумался о том, что масштабируемость – это не самоцель, а лишь один из аспектов, и что истинная сила кроется в принципиально иной организации, где интерпретируемость важнее, чем гигабайты весов? Похоже, они пытаются вырастить дракончика из графов, а не построить очередной небоскреб из трансформеров.

В последнее время наблюдается нездоровое увлечение всё большей и большей параметризацией языковых моделей. Кажется, что главное – это количество, а не качество, и каждый новый «прорыв» – это просто ещё один Transformer, только больше. Но вот в чём проблема: мы постоянно упускаем из виду, что такая слепая гонка за масштабом неизбежно приводит к потере интерпретируемости и непомерным затратам ресурсов. Мы, как обычно, оптимизируем не то, что нужно, и пытаемся заклеить философию изолентой. Именно поэтому эта работа так важна: она предлагает радикально иной подход, вдохновлённый биологическими принципами, и пытается найти баланс между производительностью и пониманием. Наконец-то кто-то решил посмотреть правде в глаза и предложить архитектуру, которая не просто работает, а ещё и даёт хоть какое-то представление о том, *как* она работает. Кажется, мы снова возвращаемся к тому, что было давно забыто, только с другой раскраской, но, возможно, на этот раз с AI-инвестициями.

От Трансформеров к Синапсам: Мотивация для BDH

Очередная попытка оправдать велосипед. То есть, да, Трансформеры, конечно, неплохи… пока не начинают пожирать ресурсы, как ненасытный монстр. Авторы, как всегда, заявляют о «ограничениях» текущих архитектур, будто мы этого не знали. Теперь они хотят вдохновиться мозгом, чтобы всё стало «интерпретируемо» и «эффективно». Как будто биология когда-то спасала нас от технических долгов. Обещают «мост» между Трансформерами и «моделями мозга». Звучит как обещание склеить изолентой два несовместимых куска кода.

Обзор архитектур: BDH-GPU как мост между Трансформерами и нейронными сетями.
Обзор архитектур: BDH-GPU как мост между Трансформерами и нейронными сетями.

На схеме, конечно, красиво. «Тензорные операции» против «локальной динамики графа». Как будто дело в терминах, а не в том, что всё это опять будет тормозить на продакшене. Обещают динамику «частиц» и «синапсов». Подозреваю, что через полгода они сами забудут, что здесь нарисовали. В итоге, они хотят построить что-то новое, используя старые концепции, прикрытые модными словами. Как всегда, всё сводится к рефакторингу, который должен был занять две недели.

Раскрытие Механизмов: Основные Компоненты BDH и BDH-GPU

Итак, они решили разобрать по косточкам этот BDH и BDH-GPU. Цель, как они пишут, – детализировать архитектуру. Знаете, как будто мы впервые видим, как процессор работает. Хотя, если честно, это просто ещё один способ представить старое в новой обёртке. Оптимизация ради оптимизации. Все эти "эффективные вычисления" и "интерпретируемые представления" – это слова, слова, слова. А что в итоге? Снова переизобретают велосипед, только теперь с графическим ускорением.

Физическое представление BDH как упрощённая модель графа.
Физическое представление BDH как упрощённая модель графа.

Судя по рисунку, они пытаются представить это всё как "физическую систему". Ну да, конечно. Как будто это что-то принципиально новое. Они, видимо, никогда не видели графы раньше. В общем, они описывают какие-то компоненты, как они взаимодействуют, и, вроде как, это должно быть эффективно. Но я уверен, что где-нибудь в коде есть утечка памяти или гонка данных. И через неделю всё это рухнет под нагрузкой. Или документация окажется ложью, как обычно.

Экспериментальная валидация: производительность и интерпретируемость

Итак, они решили доказать, что их очередная абстракция работает быстрее и понятнее, чем старые добрые Трансформеры. Честно говоря, я уже предвидел этот танец с бубном. Всегда одно и то же: сначала придумали что-то новое, потом начали измерять производительность, чтобы доказать, что оно лучше… или хотя бы не хуже. Интересно, сколько ресурсов потрачено на эту валидацию? Наверняка, могли бы просто взять старый bash-скрипт, подправить его и получить тот же результат, но без лишней шумихи. Но нет, нужно всё усложнить, добавить GPU, чтобы красиво светилось, и назвать это прорывом.

Масштабирование архитектуры BDH-GPU.
Масштабирование архитектуры BDH-GPU.

Впрочем, даже на графике видно, что они просто масштабируют модель, добавляя параметры. Удивительно, как они умудрились это назвать прорывом. Линейное масштабирование – это стандартная практика. В общем, ничего нового. Просто очередная попытка обмануть инвесторов, посыпая текст модными словечками вроде "интерпретируемость". Я уверен, что документация по этой интерпретируемости скоро обновится и скажет, что всё работает не так, как они обещали. В конечном итоге, всё сводится к тому, что легаси побеждает всегда. А эта "интерпретируемость" – просто эмоциональный долг с коммитами.

За пределами масштабирования: последствия и будущие направления

Итак, они снова говорят о "последствиях" и "будущих направлениях". Как будто мы не видели этого раньше. Задача, если её можно так назвать, - обсудить "более широкие последствия" этого BDH для "области ИИ". Очевидно, что нужно придумать, куда вложить деньги дальше. Ничего нового под солнцем. Они, вероятно, потратили месяцы, рисуя диаграммы и придумывая модные термины, вместо того, чтобы просто написать работающий код. Давайте посмотрим, что они нарыли.

Схема взаимодействия нейронов через графы. Взаимосвязь между графом и графом взаимодействия нейронов.
Схема взаимодействия нейронов через графы. Взаимосвязь между графом и графом взаимодействия нейронов.

Что мы видим здесь? Какой-то граф, нейроны, коммуникация... О, да, они пытаются показать, как сигнал распространяется по сети. Как будто мы никогда раньше не видели нейронную сеть. Они утверждают, что это можно выразить через два шага линейной динамики на каком-то разреженном контуре. Очевидно, что это должно быть "революционно". Как будто изменение порядка умножения матриц – это какое-то откровение. Это всего лишь ещё один способ обернуть старую идею в новую упаковку. Наверняка кто-то уже реализовал это на bash-скрипте лет десять назад. И кто-то другой наверняка пытался запатентовать это. И, конечно же, документация соврёт о производительности.

Заключительные размышления

Итак, они снова изобрели нейронную сеть, на этот раз вдохновлённую… чем-то биологическим. Что ж, это всегда приятно для грантовой заявки – добавить немного «вдохновлено природой». Мол, мы не просто куски кремния, а гении, подражающие эволюции! Конечно, они демонстрируют какие-то улучшения в масштабируемости и интерпретируемости, но давайте будем честны: интерпретируемость – это просто способ объяснить начальству, почему все сломалось. И да, архитектура вроде бы эффективнее, но я уверен, через полгода кто-нибудь найдёт способ выжать еще 5% из старых добрых трансформеров, и все забудут про «дракончиков».

По сути, они просто переложили проблему с одного места на другое. Вместо оптимизации огромного графа весов, теперь нужно оптимизировать локальные графы динамики. А в итоге – та же самая головная боль, только с другой обложкой. Я призываю коллег: перестаньте гоняться за модными словами и биологической правдоподобностью. Давайте строить системы, которые *работают*, а не просто хорошо звучат в научных статьях. И, ради всего святого, давайте уже начнем писать документацию, которая не соврёт.

Итак, мы вновь убеждаемся, что заманчивая идея «новой архитектуры», вдохновлённой биологией, пытается оспорить текущую гонку за размером моделей. Но, если честно, это лишь очередное переизобретение велосипеда, приправленное модными словечками. Суть в том, что за красивыми обещаниями часто скрывается отсутствие реальных улучшений и надёжных, документированных систем, которые просто работают. Не пора ли задуматься, не клеим ли мы философию изолентой, и не стоит ли искать практические решения вместо бесконечной погони за "вдохновением"? Что, если истинный прогресс заключается не в изобретении нового, а в доведении старого до совершенства?

Оригинал статьи: https://arxiv.org/pdf/2509.26507v1

Связаться с автором:

Начать дискуссию