Alibaba представила ИИ-модель, которая управляет компьютером и пишет код на основе картинок и документов
Часть функций доступна бесплатно на сайте, а для запуска ИИ-агента есть исходный код.
Qwen 2.5-VL пишет код, чтобы промаркировать мотоциклистов в шлемах и без. Здесь и далее источник: Qwen
- Qwen 2.5-VL предлагают использовать для обучения других моделей. Она генерирует на изображениях ограничительные рамки с пояснениями и создаёт на выходе JSON-файлы.
Изображение с ограничительными рамки. Qwen 2.5-VL разметила мотоциклистов, которые носят и не носят шлемы
- Компания также заявляет, что Qwen 2.5-VL «понимает события» на видео длиннее часа. На сайт пока не добавили возможность загружать видеофайлы.
- Также модель может писать код на основе документов и превращать их в HTML-страницы для веб-разработки.
Модель пишет код и создаёт HTML-страницу из документа
- Qwen 2.5-VL можно использовать как ИИ-агента для работы на ПК и мобильных устройствах от лица пользователя. В одном из примеров она бронирует рейс в приложении на Android.
- Файлы и код для установки ИИ-агента можно скачать с Hugging Face.
Qwen 2.5-VL запускает приложение Booking.com на Android и бронирует рейс из Чунцина в Пекин
- Alibaba Cloud выпустила свою первую модель с возможностью рассуждений QwQ-32B-Preview 27 ноября 2024-го на Hugging Face. В некоторых тестах она превосходит модель o1 от OpenAI.
- 9 января 2025 года для Qwen запустили отдельный сайт. Там можно задавать вопросы существующим ИИ-моделям, в том числе с поиском по интернету, а также генерировать картинки и видео.
31 комментарий