TurboQuant: новый алгоритм сжатия нейросетей от Google
Помните Пегий Дудочник из «Кремниевой долины»? Стартап, который изобрёл алгоритм сжатия, перевернувший индустрию. Google только что сделали это в реальности.
TurboQuant — новый алгоритм, который сжимает память нейросетей в 6 раз и ускоряет работу до 8 раз. Без потери качества и без дообучения.
Если проще: когда вы общаетесь с нейросетью, она хранит весь диалог в оперативной памяти. Чем длиннее разговор — тем дороже. TurboQuant сжимает эту память с 32 бит до 3 на каждое число — и модель продолжает отвечать так же точно.
Пока это исследование, но если TurboQuant доедет до продакшена, нейросети станут в разы дешевле.
Подписывайтесь на Telegram Робот сочинит симфонию?.
Начать дискуссию