Новая статья из CMU и University of Maryland: языковым моделям нужен сон, и это не шутка
Авторы из Carnegie Mellon и University of Maryland (в команде и Том Голдстейн) выкатили работу Language Models Need Sleep. Идея: научить LLM периодически уходить в режим сна и переписывать накопленный контекст в постоянные fast weights, а потом чистить KV‑кэш. Получается своего рода биологический хак: всё важное переезжает в долгосрочную память, оперативка освобождается, а модель не захлебывается от длинных контекстов.
Проблема, с которой все знакомы: attention масштабируется ужасно. Общий объём вычислений растёт квадратично по длине контекста, память под KV‑кэш растёт линейно. На long‑horizon задачах вроде агентов, работы с большими кодовыми базами или длинных рассуждений трансформер трещит по швам по обоим фронтам.
Как работает sleep‑consolidation. В архитектуру добавляются блоки state‑space (SSM) с быстрыми весами. Пока модель бодрствует, она обычным образом предсказывает токены. Раз в какое‑то время срабатывает фаза сна: модель делает N оффлайновых рекуррентных проходов по накопленному контексту и по выученному локальному правилу переписывает fast weights в SSM‑блоках. После этого KV‑кэш можно выкинуть.
Самый приятный эффект в том, что вся дополнительная вычислительная работа прячется в сон, то есть не влияет на задержку ответа. С точки зрения пользователя модель отвечает с той же скоростью, что и раньше, просто стала умнее и помнит больше.
Проверяли это всё на жёстких бенчмарках: клеточные автоматы, multi‑hop graph retrieval и реалистичное математическое рассуждение. На этих задачах обычный трансформер и даже гибриды SSM с attention в фиксированном бюджете памяти фейлят. Модель со сном проходит их методично, причём чем дольше этот самый сон, тем лучше результат. Особенно заметный прыжок на задачах, где нужно глубокое рассуждение.
По факту авторы предлагают разменять оффлайновые вычисления на качество и время отклика. Для любых агентских стеков и долгоживущих рабочих процессов это очень приятно: можно пустить фазу сна ночью или между запросами, получить прокачанные fast weights, а на onboard времени иметь пользовательский опыт, не просевший по скорости.
Источники:
https://arxiv.org/abs/2605.26099