Сотрудник Yandex Research разработал сервис для запуска большой языковой модели Llama 3.1 «на обычном компьютере»

Он работает на основе методов сжатия, которые позволяют уменьшить модель в несколько раз.

2828
22
реклама
разместить

Хотя погодите... 8b - это же не такая уж большая модель.
Я на ноуте 13b давно запускаю... на RTX 3060 8gb.

Новость по прежнему шикарна, но я буду ждать когда другие модели можно будет сжать до сингулярности.
Меня из доступных нейронок очень интересует DeepSeek и Mistral. На остальные пофиг.

2

По теории архивации сжать можно до бесконечности, но вот качество будет как у той машинистки, которая печатает 1000 знаков в минуту :)

Мистраль доступна по API в режиме Free (они данные для обучения используют)

Что может интересовать в DeepSeek и Mistral ? Качество ответов ваще не але.