Сотрудник Yandex Research разработал сервис для запуска большой языковой модели Llama 3.1 «на обычном компьютере»
Он работает на основе методов сжатия, которые позволяют уменьшить модель в несколько раз.
- Исследователь из научного отдела «Яндекса» Владимир Малиновский разработал сервис, который позволяет запустить большую языковую модель с 8 млрд параметров «на обычном компьютере или смартфоне» через браузер, рассказали в компании. Исходный код проекта опубликован на GitHub.
- Протестировать сервис можно на специальной странице. При запуске на устройство пользователя загружается модель Llama 3.1-8B, размер которой уменьшен в восемь раз, до 2,5 ГБ. После этого её можно использовать без подключения к интернету.
- Скорость работы модели зависит от производительности устройства. Например, на MacBook Pro с процессором M1 она составит около 3-4 символов в секунду.
Программа написана на языке Rust с помощью технологии WebAssembly, позволяющей запускать проект на любом языке внутри браузера.
Сервис использует методы сжатия языковых моделей, которые учёные Yandex Research разработали вместе с исследователями из Института науки и технологий Австрии (ISTA) и Научно-технологического университета имени короля Абдаллы в Саудовской Аравии (KAUST).
Разработку представили летом 2024 года. Она включает два инструмента. Первый сжимает модель до восьми раз, чтобы её можно было запустить, например, на одном графическом процессоре вместо четырёх. Второй исправляет ошибки, возникшие в процессе сжатия, чтобы сохранить качество ответов нейросети.
Многие говорят о DeepSeek R-1, новой языковой ИИ-модели с открытым исходным кодом, созданной китайской ИИ-компанией DeepSeek. Некоторые пользователи утверждают, что по возможностям рассуждения она не уступает или даже превосходит модель o1 от OpenAI.
Я не верю тому, что они говорят, и вы тоже не должны верить. А если быть последовательным, то и вы не должны доверять моим словам. Но я докажу свои слова фактами и доказательствами.
Пока все спорят о дешёвых акциях и грядущем росте, крупные игроки делают ставку на падение. Почему рынок снова трясёт и к чему готовиться на этой неделе?
По словам стартапа, в двух тестах Janus-Pro-7B превосходит Stable Diffusion 3 Medium и DALL-E 3 от OpenAI.
Что, если я скажу, что большие языковые модели не просто предсказывают следующий токен в ответ на запрос, а уже на ранних этапах формирования ответа «заранее планируют» его характеристики?
Яндекс представил новое поколение своей флагманской языковой модели — YandexGPT 5 Pro, которая устанавливает новые стандарты в обработке естественного языка для русскоязычного сегмента. Интегрированная в сервис «Алиса Про», модель демонстрирует качество ответов, сопоставимое с мировыми лидерами вроде GPT-4o от OpenAI, превосходя предыдущую версию Y…
LM Studio — инструмент для локального запуска LLM (языковых моделей) на Windows, macOS и Linux. Вы скачиваете бесплатные модели с открытым кодом (DeepSeek, Llama, Mistral и др.), выбираете конфигурацию и запускаете чат-бот прямо на своём компе. Все вопросы и ответы обрабатываются локально, защищая ваши данные. Установка занимает пять минут и не тре…
Модель пока не поддерживает русский язык, в соцсетях её используют для практики разговорного английского.
С развитием технологий искусственного интеллекта открытые языковые модели (Open Source LLM) стали достойной альтернативой коммерческим решениям, таким как #ChatGPT, Google Gemini и Claude 3. Запуск моделей на локальном компьютере имеет ряд преимуществ, но требует определенных технических ресурсов. В этой статье разберем, зачем это нужно и как можно…
Пегий Дудочник ента ты??!?
Думаю, где-то через час мучительно родится рассказ.
Напишет «пук»
Llama 3.1-8B в браузере:
ollama гоняет 7-8b llama 3.1 на 8gb m1 почти без проблем.
гугловая модель для хрома тоже знимает 2гб
Не мешайте Яндексу "изобретать" квантизацию. Россия - родина слонов!
Заголовок и фокус новости не совсем верно отражают суть проекта. ПО, запускающее "большие модели", уже и так существует.
Суть в том, что автор сделал возможным запуск моделей, сильно пожатых методами квантизации LLM.int8() и AQLM+PV в браузере, поддерживающем WebAssembly. Это концептуально интересно и полезно для запуска мини-нейронок.
Диалоговый режим в демо портит впечатление, потому что для приемлемой скорости подгружается сильно "лоботомизированная" модель. То есть модель далеко не "большая", а сильно порезанная и галлюцинирующая (на моем скрине видно, насколько она бредит и зацикливается). Однако удивительно, что даже несмотря на чересчур сильное квантование, модель все еще отвечает кириллицей.