TurboQuant: новый алгоритм сжатия нейросетей от Google

Помните Пегий Дудочник из «Кремниевой долины»? Стартап, который изобрёл алгоритм сжатия, перевернувший индустрию. Google только что сделали это в реальности.

TurboQuant — новый алгоритм, который сжимает память нейросетей в 6 раз и ускоряет работу до 8 раз. Без потери качества и без дообучения.

Если проще: когда вы общаетесь с нейросетью, она хранит весь диалог в оперативной памяти. Чем длиннее разговор — тем дороже. TurboQuant сжимает эту память с 32 бит до 3 на каждое число — и модель продолжает отвечать так же точно.

Пока это исследование, но если TurboQuant доедет до продакшена, нейросети станут в разы дешевле.

Подписывайтесь на Telegram Робот сочинит симфонию?.

Начать дискуссию