«Яндекс» разработал методы сжатия языковых моделей для запуска на устройствах с меньшей вычислительной мощностью
Это позволит снизить расходы на внедрение нейросетей, говорят в компании.
- Учёные Yandex Research разработали новые методы сжатия больших языков моделей вместе с исследователями из Института науки и технологий Австрии (ISTA) и Научно-технологического университета имени короля Абдаллы в Саудовской Аравии (KAUST), сообщили в «Яндексе». Их код опубликован на GitHub.
- Они позволяют уменьшить модель «в несколько раз» и сократить количество необходимых для запуска процессоров. Это поможет бизнесу снизить расходы на внедрение нейросетей и обслуживание оборудования, отмечают в компании.
- Решение включает два инструмента. Первый сжимает модель до восьми раз, чтобы её можно было запустить, например, на одном графическом процессоре вместо четырёх. Второй исправляет ошибки, возникшие в процессе сжатия для, чтобы сохранить качество ответов нейросети.
- Эффективность методов проверили на моделях Llama 2, Llama 3, Mistral и других. Качество ответов оценивали на англоязычных тестах — в среднем оно сохранилось на 95%. По словам «Яндекса», другие «популярные решения» для сжатия моделей сохраняют от 59% до 90% их качества.
Комментарий недоступен
"Института науки и технологий Австрии"
С институтом из недружественной страны, значит, сотрудничают. Так-так-так.
Как думаете пора уже уголовку им, или понаблюдаем ещё?
Это Яндекс Воложа, это другое
иноагенты, значит получается...
О, годное дело 👍🏻