09.12.2024

Сотрудник Yandex Research разработал сервис для запуска большой языковой модели Llama 3.1 «на обычном компьютере»

Он работает на основе методов сжатия, которые позволяют уменьшить модель в несколько раз.

Исследователь из научного отдела «Яндекса» Владимир Малиновский разработал сервис, который позволяет запустить большую языковую модель с 8 млрд параметров «на обычном компьютере или смартфоне» через браузер, рассказали в компании. Исходный код проекта опубликован на GitHub.
Протестировать сервис можно на специальной странице. При запуске на устройство пользователя загружается модель Llama 3.1-8B, размер которой уменьшен в восемь раз, до 2,5 ГБ. После этого её можно использовать без подключения к интернету.
Скорость работы модели зависит от производительности устройства. Например, на MacBook Pro с процессором M1 она составит около 3-4 символов в секунду.

Программа написана на языке Rust с помощью технологии WebAssembly, позволяющей запускать проект на любом языке внутри браузера.
Сервис использует методы сжатия языковых моделей, которые учёные Yandex Research разработали вместе с исследователями из Института науки и технологий Австрии (ISTA) и Научно-технологического университета имени короля Абдаллы в Саудовской Аравии (KAUST).
Разработку представили летом 2024 года. Она включает два инструмента. Первый сжимает модель до восьми раз, чтобы её можно было запустить, например, на одном графическом процессоре вместо четырёх. Второй исправляет ошибки, возникшие в процессе сжатия, чтобы сохранить качество ответов нейросети.

#новости #яндекс

2828

3030

разместить

42 комментария

THEOILMAN

09.12.2024

Пегий Дудочник ента ты??!?

Ответить

Слегка Придурковатый

09.12.2024

Думаю, где-то через час мучительно родится рассказ.

Напишет «пук»

Драка вегетарианца с людоедом

09.12.2024

Llama 3.1-8B в браузере:

Ответить

Иван

09.12.2024

ollama гоняет 7-8b llama 3.1 на 8gb m1 почти без проблем.

гугловая модель для хрома тоже знимает 2гб

Ответить

Невкусно и грустно

09.12.2024

Не мешайте Яндексу "изобретать" квантизацию. Россия - родина слонов!

Ответить

Дмитрий Глашков

09.12.2024

Заголовок и фокус новости не совсем верно отражают суть проекта. ПО, запускающее "большие модели", уже и так существует.

Суть в том, что автор сделал возможным запуск моделей, сильно пожатых методами квантизации LLM.int8() и AQLM+PV в браузере, поддерживающем WebAssembly. Это концептуально интересно и полезно для запуска мини-нейронок.

Диалоговый режим в демо портит впечатление, потому что для приемлемой скорости подгружается сильно "лоботомизированная" модель. То есть модель далеко не "большая", а сильно порезанная и галлюцинирующая (на моем скрине видно, насколько она бредит и зацикливается). Однако удивительно, что даже несмотря на чересчур сильное квантование, модель все еще отвечает кириллицей.

Ответить

Раскрывать всегда

NeuroЭнтузиаст (Алексей)

24 янв

Как установить и использовать DeepSeek R-1 на вашем компьютере

Многие говорят о DeepSeek R-1, новой языковой ИИ-модели с открытым исходным кодом, созданной китайской ИИ-компанией DeepSeek. Некоторые пользователи утверждают, что по возможностям рассуждения она не уступает или даже превосходит модель o1 от OpenAI.

5959

NeuroЭнтузиаст (Алексей)

28 янв

DeepSeek-R1? Не доверяйте новостям. Действительно ли эта модель с открытым исходным кодом превосходит даже OpenAI, или это очередная фейковая новость?

Я не верю тому, что они говорят, и вы тоже не должны верить. А если быть последовательным, то и вы не должны доверять моим словам. Но я докажу свои слова фактами и доказательствами.

2626

Суцкевер Семен - Fond&Flow

32м

💭 «Мысли вслух» — что творится с фондовым рынком в России? Почему после нескольких слухов, инвесторы начали массово продавать? Паника здравствуйте!

Пока все спорят о дешёвых акциях и грядущем росте, крупные игроки делают ставку на падение. Почему рынок снова трясёт и к чему готовиться на этой неделе?

Валерия Ильина

6 мар

Llama: как пользоваться ИИ-моделями в России

Три способа протестировать Llama без иностранного номера.

Таня Боброва

27 янв

Китайский DeepSeek представил модели Janus Pro для генерации картинок

По словам стартапа, в двух тестах Janus-Pro-7B превосходит Stable Diffusion 3 Medium и DALL-E 3 от OpenAI.

Сравнение результатов Janus и Janus-Pro-7B. Источник: DeepSeek

3232

Ребята решили просто уничтожить кое-кого и заодно обвалить свои серваки (-: Но и молодцы, давайте! К утру должна быть новость о запуске опенсорсного Скайнет 😁

Евгения Евсеева

20 мар

«Яндекс» представил обновлённую YandexART и ввёл платную подписку «Про» в «Шедевруме»

Она позволяет воспользоваться самой мощной версией модели.

1919

1717

Мало того, что во всех сервисах Яндекса сплошная реклама и подписка Яндекс+ не помогает, так они еще внедряют платные функции. Яндекс вызывает отторжение

Датаист

18 февр

Как большие языковые модели планируют свои ответы еще до их генерации

Что, если я скажу, что большие языковые модели не просто предсказывают следующий токен в ответ на запрос, а уже на ранних этапах формирования ответа «заранее планируют» его характеристики?

YandexGPT 5 Pro: революция в области генеративных языковых моделей от Яндекса

Яндекс представил новое поколение своей флагманской языковой модели — YandexGPT 5 Pro, которая устанавливает новые стандарты в обработке естественного языка для русскоязычного сегмента. Интегрированная в сервис «Алиса Про», модель демонстрирует качество ответов, сопоставимое с мировыми лидерами вроде GPT-4o от OpenAI, превосходя предыдущую версию Y…

Нейросеть дня «LM Studio»: разворачиваем локальную LLM на личном компьютере

LM Studio — инструмент для локального запуска LLM (языковых моделей) на Windows, macOS и Linux. Вы скачиваете бесплатные модели с открытым кодом (DeepSeek, Llama, Mistral и др.), выбираете конфигурацию и запускаете чат-бот прямо на своём компе. Все вопросы и ответы обрабатываются локально, защищая ваши данные. Установка занимает пять минут и не тре…

Sesame выложила бесплатную модель синтеза речи своего «вирусного» ИИ-помощника — он смеётся, «заигрывает» и ведёт «искренний диалог»

Модель пока не поддерживает русский язык, в соцсетях её используют для практики разговорного английского.

Алексей Королев

15 мар

Как и зачем запускать LLM локально 🚀

С развитием технологий искусственного интеллекта открытые языковые модели (Open Source LLM) стали достойной альтернативой коммерческим решениям, таким как #ChatGPT, Google Gemini и Claude 3. Запуск моделей на локальном компьютере имеет ряд преимуществ, но требует определенных технических ресурсов. В этой статье разберем, зачем это нужно и как можно…