Сотрудник Yandex Research разработал сервис для запуска большой языковой модели Llama 3.1 «на обычном компьютере»

Он работает на основе методов сжатия, которые позволяют уменьшить модель в несколько раз.

  • Исследователь из научного отдела «Яндекса» Владимир Малиновский разработал сервис, который позволяет запустить большую языковую модель с 8 млрд параметров «на обычном компьютере или смартфоне» через браузер, рассказали в компании. Исходный код проекта опубликован на GitHub.
  • Протестировать сервис можно на специальной странице. При запуске на устройство пользователя загружается модель Llama 3.1-8B, размер которой уменьшен в восемь раз, до 2,5 ГБ. После этого её можно использовать без подключения к интернету.
  • Скорость работы модели зависит от производительности устройства. Например, на MacBook Pro с процессором M1 она составит около 3-4 символов в секунду.
  • Программа написана на языке Rust с помощью технологии WebAssembly, позволяющей запускать проект на любом языке внутри браузера.

  • Сервис использует методы сжатия языковых моделей, которые учёные Yandex Research разработали вместе с исследователями из Института науки и технологий Австрии (ISTA) и Научно-технологического университета имени короля Абдаллы в Саудовской Аравии (KAUST).

  • Разработку представили летом 2024 года. Она включает два инструмента. Первый сжимает модель до восьми раз, чтобы её можно было запустить, например, на одном графическом процессоре вместо четырёх. Второй исправляет ошибки, возникшие в процессе сжатия, чтобы сохранить качество ответов нейросети.

2828
22
44 комментария

Пегий Дудочник ента ты??!?

26

Думаю, где-то через час мучительно родится рассказ.

12
6

Напишет «пук»

4

ollama гоняет 7-8b llama 3.1 на 8gb m1 почти без проблем.

гугловая модель для хрома тоже знимает 2гб

5
1

Не мешайте Яндексу "изобретать" квантизацию. Россия - родина слонов!

12

Заголовок и фокус новости не совсем верно отражают суть проекта. ПО, запускающее "большие модели", уже и так существует.

Суть в том, что автор сделал возможным запуск моделей, сильно пожатых методами квантизации LLM.int8() и AQLM+PV в браузере, поддерживающем WebAssembly. Это концептуально интересно и полезно для запуска мини-нейронок.

Диалоговый режим в демо портит впечатление, потому что для приемлемой скорости подгружается сильно "лоботомизированная" модель. То есть модель далеко не "большая", а сильно порезанная и галлюцинирующая (на моем скрине видно, насколько она бредит и зацикливается). Однако удивительно, что даже несмотря на чересчур сильное квантование, модель все еще отвечает кириллицей.

5