«Яндекс» разработал методы сжатия языковых моделей для запуска на устройствах с меньшей вычислительной мощностью

Это позволит снизить расходы на внедрение нейросетей, говорят в компании.

Учёные Yandex Research разработали новые методы сжатия больших языков моделей вместе с исследователями из Института науки и технологий Австрии (ISTA) и Научно-технологического университета имени короля Абдаллы в Саудовской Аравии (KAUST), сообщили в «Яндексе». Их код опубликован на GitHub.
Они позволяют уменьшить модель «в несколько раз» и сократить количество необходимых для запуска процессоров. Это поможет бизнесу снизить расходы на внедрение нейросетей и обслуживание оборудования, отмечают в компании.
Решение включает два инструмента. Первый сжимает модель до восьми раз, чтобы её можно было запустить, например, на одном графическом процессоре вместо четырёх. Второй исправляет ошибки, возникшие в процессе сжатия для, чтобы сохранить качество ответов нейросети.
Эффективность методов проверили на моделях Llama 2, Llama 3, Mistral и других. Качество ответов оценивали на англоязычных тестах — в среднем оно сохранилось на 95%. По словам «Яндекса», другие «популярные решения» для сжатия моделей сохраняют от 59% до 90% их качества.

#новости #яндекс