Это позволит снизить расходы на внедрение нейросетей, говорят в компании.Учёные Yandex Research разработали новые методы сжатия больших языков моделей вместе с исследователями из Института науки и технологий Австрии (ISTA) и Научно-технологического университета имени короля Абдаллы в Саудовской Аравии (KAUST), сообщили в «Яндексе». Их код опубликован на GitHub.Они позволяют уменьшить модель «в несколько раз» и сократить количество необходимых для запуска процессоров. Это поможет бизнесу снизить расходы на внедрение нейросетей и обслуживание оборудования, отмечают в компании.Решение включает два инструмента. Первый сжимает модель до восьми раз, чтобы её можно было запустить, например, на одном графическом процессоре вместо четырёх. Второй исправляет ошибки, возникшие в процессе сжатия для, чтобы сохранить качество ответов нейросети.Эффективность методов проверили на моделях Llama 2, Llama 3, Mistral и других. Качество ответов оценивали на англоязычных тестах — в среднем оно сохранилось на 95%. По словам «Яндекса», другие «популярные решения» для сжатия моделей сохраняют от 59% до 90% их качества.#новости #яндекс
изнутри наружу
"Института науки и технологий Австрии"
С институтом из недружественной страны, значит, сотрудничают. Так-так-так.
Как думаете пора уже уголовку им, или понаблюдаем ещё?
Это Яндекс Воложа, это другое
иноагенты, значит получается...
О, годное дело 👍🏻