Google представили TurboQuant - алгоритм, который сильно снижает требования к памяти при работе LLM.

Google представили TurboQuant - алгоритм, который сильно снижает требования к памяти при работе LLM.

Подразделение Research анонсировало TurboQuant, алгоритм векторного квантования, объединяющий 2 других метода - QJL и PolarQuant, который решает проблему увеличения KV-кэша при работе с длинным контекстом.

3