«Яндекс» разработал методы сжатия языковых моделей для запуска на устройствах с меньшей вычислительной мощностью

Это позволит снизить расходы на внедрение нейросетей, говорят в компании.

1717
77
11

Для пользователей попроще пока вроде хватает ollama для запуска модели

Зависит от размера целевой модели. 70B модель в 4 бита не влезет на RTX3090/4090, а c AQLM влезет.

1