Google представила TurboQuant: новый алгоритм экстремального сжатия для LLM и векторного поиска.

Алгоритм экстремального сжатия TurboQuant решает одну из самых дорогих проблем современных LLM, проблему памяти. Главный узкий момент сегодня это не сами вычисления, а KV-cache, в котором хранятся промежуточные представления токенов. Чем длиннее контекст, тем быстрее растет потребление памяти и тем дороже становится inference. В какой-то момент именно память, а не GPU, начинает ограничивать масштаб.

TurboQuant атакует эту проблему напрямую. Вместо привычных 16 или 8 бит на значение используется около 3 бит, при этом качество модели сохраняется. Важно, что метод не требует дообучения и работает прямо во время инференса, без предварительной подготовки данных.

Ключевая идея не в одном трюке, а в комбинации нескольких шагов. Сначала векторы преобразуются так, чтобы их распределение стало более удобным для сжатия. Затем применяется покомпонентное квантование, где каждая координата обрабатывается отдельно. Финальный этап, коррекция ошибки, компенсирует искажения и позволяет сохранить точность скалярных произведений, которые критичны для attention.

На практике это дает кратный эффект. Память для KV-cache сокращается примерно в шесть раз, а скорость attention на GPU может вырасти до восьми раз. Это редкий случай, когда оптимизация одновременно снижает стоимость и ускоряет работу без комприссов по качеству.

Главное последствие, меняется экономика AI. Длинный контекст становится дешевле, большие модели можно запускать на более слабом железе, а стоимость inference начинает снижаться не за счет масштабирования инфраструктуры, а за счет алгоритмов.

Реакция рынка показала, насколько это чувствительная тема. После анонса просели акции производителей памяти, потому что возник риск снижения спроса на DRAM. Но исторически такие улучшения чаще приводят к обратному эффекту, снижение стоимости увеличивает общее использование.

Google представила TurboQuant: новый алгоритм экстремального сжатия для LLM и векторного поиска.

Что именно предлагает TurboQuant?

Как это работает?

Практический эффект

Реакция рынка