Video language models обсуждаются как возможный следующий шаг в развитии ИИ
После LLM и AI-агентов в сфере ИИ появился еще один термин — video language models, или world models. Под ним понимаются системы, которые работают с видео как с процессом во времени, а не как с набором отдельных изображений. Идея в том, чтобы модель могла учитывать, как меняется сцена и к чему приводят те или иные действия.
Практические возможности такого подхода пока только прощупываются, но подобные модели рассматриваются как потенциальный инструмент для задач, где важно понимание динамики среды — от робототехники до автономного транспорта и цифровых симуляций. В этих сценариях ИИ требуется не только распознавать объекты, но и интерпретировать происходящее в пространстве и во времени.
За пределами лабораторий появляются и первые прикладные эксперименты. Компания Milestone Systems представила, например, vision language model для систем видеонаблюдения, которая формирует текстовые описания видеосцен и используется как вспомогательный инструмент при разборе инцидентов. Пока такие решения дополняют существующие процессы, но подход показывает, в каком направлении может развиваться работа с видеоданными в корпоративных системах.