Alibaba представила Qwen 2.5-Omni-7B — мультимодальную модель с открытым кодом

Она распознаёт текст, изображения, аудио и видео, а также отвечает текстом и голосом.

Компания заявляет, что модель можно запустить на смартфонах и ноутбуках.
Qwen2.5-Omni-7B на 7 млрд параметров. Она предназначена для разработки «гибких ИИ-агентов», особенно в сфере голосовых приложений.
Модель могла бы составлять аудиоописания окружения для людей с нарушением зрения, давать подсказки во время готовки, анализируя ингредиенты на видео, стать основой сервиса клиентской поддержки и не только.
Модель уже доступна для разработчиков на Hugging Face, GitHub, ModelScope, а также её добавят в Qwen Chat.

24 февраля 2025 года Alibaba заявила, что инвестирует более $52 млрд в создание облачных платформ и ИИ-инфраструктуры.
Alibaba представила Qwen2.5 в сентябре 2024 года, в январе 2025 — модель Qwen 2.5-Max.
6 марта 2025-го компания выпустила QwQ-32B. В некоторых тестах она превзошла o1-mini от Open AI и приблизилась к результатам DeepSeek-R1, хотя не смогла обойти её в тестах на программирование.