Не мешайте Яндексу "изобретать" квантизацию. Россия - родина слонов! — Невкусно и грустно на vc.ru

Артур Томилко

Сотрудник Yandex Research разработал сервис для запуска большой языковой модели Llama 3.1 «на обычном компьютере»

Он работает на основе методов сжатия, которые позволяют уменьшить модель в несколько раз.

Читать далее

2828

22

ollama гоняет 7-8b llama 3.1 на 8gb m1 почти без проблем.

гугловая модель для хрома тоже знимает 2гб

5

1

Ответить

Невкусно и грустно

Не мешайте Яндексу "изобретать" квантизацию. Россия - родина слонов!

12

Ответить