Для пользователей попроще пока вроде хватает ollama для запуска модели — Юлия Лепихина на vc.ru

Артур Томилко

«Яндекс» разработал методы сжатия языковых моделей для запуска на устройствах с меньшей вычислительной мощностью

Это позволит снизить расходы на внедрение нейросетей, говорят в компании.

Читать далее

1717

77

11

Юлия Лепихина

Для пользователей попроще пока вроде хватает ollama для запуска модели

Ответить

SpiridonSunRotator

Зависит от размера целевой модели. 70B модель в 4 бита не влезет на RTX3090/4090, а c AQLM влезет.

1

Ответить