Сотрудник Yandex Research разработал сервис для запуска большой языковой модели Llama 3.1 «на обычном компьютере»

Он работает на основе методов сжатия, которые позволяют уменьшить модель в несколько раз.

2828
22

ollama гоняет 7-8b llama 3.1 на 8gb m1 почти без проблем.

гугловая модель для хрома тоже знимает 2гб

5
1

Не мешайте Яндексу "изобретать" квантизацию. Россия - родина слонов!

12