Заголовок и фокус новости не совсем верно отражают суть проекта. ПО, запускающее "большие модели", уже и так существует.
Суть в том, что автор сделал возможным запуск моделей, сильно пожатых методами квантизации LLM.int8() и AQLM+PV в браузере, поддерживающем WebAssembly. Это концептуально интересно и полезно для запуска мини-нейронок.
Диалоговый режим в демо портит впечатление, потому что для приемлемой скорости подгружается сильно "лоботомизированная" модель. То есть модель далеко не "большая", а сильно порезанная и галлюцинирующая (на моем скрине видно, насколько она бредит и зацикливается). Однако удивительно, что даже несмотря на чересчур сильное квантование, модель все еще отвечает кириллицей.
Пегий Дудочник ента ты??!?
Думаю, где-то через час мучительно родится рассказ.
Напишет «пук»
Llama 3.1-8B в браузере:
ollama гоняет 7-8b llama 3.1 на 8gb m1 почти без проблем.
гугловая модель для хрома тоже знимает 2гб
Не мешайте Яндексу "изобретать" квантизацию. Россия - родина слонов!
Заголовок и фокус новости не совсем верно отражают суть проекта. ПО, запускающее "большие модели", уже и так существует.
Суть в том, что автор сделал возможным запуск моделей, сильно пожатых методами квантизации LLM.int8() и AQLM+PV в браузере, поддерживающем WebAssembly. Это концептуально интересно и полезно для запуска мини-нейронок.
Диалоговый режим в демо портит впечатление, потому что для приемлемой скорости подгружается сильно "лоботомизированная" модель. То есть модель далеко не "большая", а сильно порезанная и галлюцинирующая (на моем скрине видно, насколько она бредит и зацикливается). Однако удивительно, что даже несмотря на чересчур сильное квантование, модель все еще отвечает кириллицей.