Сотрудник Yandex Research разработал сервис для запуска большой языковой модели Llama 3.1 «на обычном компьютере»

Он работает на основе методов сжатия, которые позволяют уменьшить модель в несколько раз.

2828
22

Заголовок и фокус новости не совсем верно отражают суть проекта. ПО, запускающее "большие модели", уже и так существует.

Суть в том, что автор сделал возможным запуск моделей, сильно пожатых методами квантизации LLM.int8() и AQLM+PV в браузере, поддерживающем WebAssembly. Это концептуально интересно и полезно для запуска мини-нейронок.

Диалоговый режим в демо портит впечатление, потому что для приемлемой скорости подгружается сильно "лоботомизированная" модель. То есть модель далеко не "большая", а сильно порезанная и галлюцинирующая (на моем скрине видно, насколько она бредит и зацикливается). Однако удивительно, что даже несмотря на чересчур сильное квантование, модель все еще отвечает кириллицей.

5

Это круто, но пока что результаты не идеальны и жаль, что из-за ограничений модель иногда глючит))