«Яндекс» разработал методы сжатия языковых моделей для запуска на устройствах с меньшей вычислительной мощностью

Это позволит снизить расходы на внедрение нейросетей, говорят в компании.

  • Учёные Yandex Research разработали новые методы сжатия больших языков моделей вместе с исследователями из Института науки и технологий Австрии (ISTA) и Научно-технологического университета имени короля Абдаллы в Саудовской Аравии (KAUST), сообщили в «Яндексе». Их код опубликован на GitHub.
  • Они позволяют уменьшить модель «в несколько раз» и сократить количество необходимых для запуска процессоров. Это поможет бизнесу снизить расходы на внедрение нейросетей и обслуживание оборудования, отмечают в компании.
  • Решение включает два инструмента. Первый сжимает модель до восьми раз, чтобы её можно было запустить, например, на одном графическом процессоре вместо четырёх. Второй исправляет ошибки, возникшие в процессе сжатия для, чтобы сохранить качество ответов нейросети.
  • Эффективность методов проверили на моделях Llama 2, Llama 3, Mistral и других. Качество ответов оценивали на англоязычных тестах — в среднем оно сохранилось на 95%. По словам «Яндекса», другие «популярные решения» для сжатия моделей сохраняют от 59% до 90% их качества.
1717
77
11
58 комментариев
20
Ответить

изнутри наружу

8
Ответить

"Института науки и технологий Австрии"

С институтом из недружественной страны, значит, сотрудничают. Так-так-так.

7
Ответить

Как думаете пора уже уголовку им, или понаблюдаем ещё?

2
Ответить

Это Яндекс Воложа, это другое

1
Ответить

иноагенты, значит получается...

Ответить

О, годное дело 👍🏻

4
Ответить