LLM забывают ровно как люди. Математика та же самая, и это доказали на числах

Вышла работа, которая заслуживает внимания каждого, кто строит RAG-системы, векторные базы или долговременную память для агентов. Группа из Sentra (Ashwin Gopinath и соавторы) несколько месяцев изучала спектральную концентрацию в обученных представлениях и пришла к выводу, от которого становится неуютно: эмбеддинг-модели забывают ровно так же, как забываем мы. Не метафорически, а количественно - с теми же числами, что дают самые воспроизводимые эксперименты клинической психологии.

Суть в следующем. Модели, которые заявляют номинальную размерность 384, 768 или 1024, реально концентрируют дисперсию примерно в 16 эффективных измерениях. MiniLM (384 номинально) - d_eff = 15.7. BGE-base (768) - 16.6. BGE-large (1024) - 16.3.

Почти трехкратная разница в заявленной размерности, а эффективная рабочая - одна и та же.

Авторы называют это «иллюзией размерности»: модель, которая утверждает, что у нее 1024 измерения, на самом деле обеспечивает защиту от интерференции как система из 16 измерений.

Показываю как профессионально работать с Claude и другими ИИ у себя в телеге! И зеркало Max, если тг не работает(

И вот что из этого следует. Кривая забывания Эббингауза (степенной закон затухания памяти, первая публикация 1885 год, с тех пор подтверждена десятки раз) воспроизводится в эмбеддинг-пространстве не через затухание сигнала, а через конкуренцию. Авторы закодировали 1000 фактов за 30 симулированных дней и добавляли дистракторы. Без конкурентов экспонента забывания b составила 0.009 - практически нулевое забывание. С 10 000 дистракторов при том же коэффициенте затухания экспонента поднялась до 0.460, что совпадает с человеческими данными (b около 0.5). Память не тухнет, как чернила на солнце. Она теряется в толпе. Время коррелирует с забыванием только потому, что за это время накапливаются конкуренты.

Самый неожиданный результат - ложные воспоминания. Парадигма DRM (Deese-Roediger-McDermott) - золотой стандарт изучения ложной памяти у людей: человеку показывают слова вокруг темы (кровать, отдых, сон, усталость), а потом он уверен, что видел слово «сон», хотя его не было. Происходит это примерно в 55% случаев. Авторы взяли 24 опубликованных DRM-листа, закодировали 1024-мерной моделью и просто посчитали косинусное сходство. Без какой-либо настройки параметров. Ложная тревога на критические слова-приманки составила 0.583 при нуле ложных срабатываний на несвязанные слова. Человеческое значение - 0.55. Разница 3.3 процентных пункта, ноль тюнинга. Ложные воспоминания не нужно конструировать. Они уже сидят в геометрии семантического пространства.

Практический вывод для тех, кто строит RAG и агентские системы, авторы формулируют прямо: ваша векторная база будет забывать. Это не худший сценарий, а ожидаемое поведение, предсказуемое из первых принципов. Точность поиска деградирует по степенному закону с ростом размера базы. Каждая растущая без границ векторная БД воспроизводит тот самый эксперимент Эббингауза 1885 года. А популярная инженерная практика - усреднять близкие эмбеддинги для дедупликации - геометрически разрушительна: центроидное слияние дало 62.5% компрессии, но увеличило обратную интерференцию почти в 4 раза.

Главный тезис статьи: забывание и ложные воспоминания - это не баги биологического железа. Это свойства любой системы, которая организует информацию по смыслу и извлекает по близости. Биология определяет, где в пространстве параметров находится конкретная система. Геометрия определяет, что с ней произойдет, когда она туда попадет. И граница между биологической и искусственной памятью оказалась тоньше, чем кто-либо предполагал.

Статья: https://arxiv.org/abs/2604.06222

Код и данные: https://github.com/Dynamis-Labs/hide-project