Он работает на основе методов сжатия, которые позволяют уменьшить модель в несколько раз.
ollama гоняет 7-8b llama 3.1 на 8gb m1 почти без проблем.
гугловая модель для хрома тоже знимает 2гб
Не мешайте Яндексу "изобретать" квантизацию. Россия - родина слонов!
ollama гоняет 7-8b llama 3.1 на 8gb m1 почти без проблем.
гугловая модель для хрома тоже знимает 2гб
Не мешайте Яндексу "изобретать" квантизацию. Россия - родина слонов!