HumanOmniV2: модель, которая идеально понимает контекст видео.

Alibaba Group разработали HumanOmniV2 , модель на базе Qwen2.5-Omni-7B-thinker, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ.

HumanOmniV2: модель, которая идеально понимает контекст видео.

Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге . На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге .

Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых:

🟢«Награда за контекст» дается, если его описание полное и релевантное, причем качество этого описания оценивает другая, более мощная LLM;

🟢«Логическая награда» проверяет, что в своих рассуждениях модель действительно использовала данные из видео и аудио, а не проигнорировала их.

HumanOmniV2: модель, которая идеально понимает контекст видео.

Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE.

Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения).

HumanOmniV2: модель, которая идеально понимает контекст видео.

Тестовая модель обошла открытые аналоги на 3 бенчмарках:

🟠Daily-Omni: 58.47% (53.13% у MiniCPM-o 2.6); 🟠WorldSense: 47.1% (45.4% у Qwen2.5-Omni); 🟠IntentBench: 69.33% (64.20% у Qwen2.5-Omni).

📌Лицензирование: Apache 2.0 License.

🟡Модель (https://huggingface.co/PhilipC/HumanOmniV2)

🟡Arxiv (https://arxiv.org/pdf/2506.21277)

🖥GitHub (https://github.com/HumanMLLM/HumanOmniV2)

Подписаться на наш телеграм с детальным разбором моделей.

1
Начать дискуссию