Найти и сохранить таймкоды всех объектов на видео одним кликом или машинное обучение для видеомонтажа
Порог вхождения в видеомонтаж за последние несколько лет понизился до такой степени, что скоро «Режиссер монтажа» вымрет как профессия! Их функции все чаще на себя берут режиссеры, продюсеры, редакторы и прочие.
Этому способствует развитие монтажных систем и цифровых носителей, которые очень упростили процессы, доведя видеомонтаж до банальных «копировать», «обрезать» и «сохранить». Ушли в прошлое сложные монтажки, которые требовали определенной подготовки для пользователя в области коммутации видеооборудования и параметров кодирования.
Аналоговые Betacam-ы были вытеснены всевозможными флешками, а многочисленные кодеки пришли к единым стандартам, таким как H.264.
Новый виток развития наметился в последнее время благодаря повсеместному развитию нейронных сетей. Теперь эти технологии постепенно подбираются в видеопроизводству.
Теперь искать любые фрагменты видео очень просто
Дело в том что почти треть работы видеомонтажера заключается в рутинном поиске видеоряда из исходников, которые надо каждый раз шерстить в поиске контекстного плана под закадровый текст, по моему это не несет никакой творческой составляющей. Ну и подумал я, а что если написать соф, который будет проходится по папке с исходниками, распознавать объекты, аккуратненько записывать их в БД. Далее, в момент поиска видео фрагментов для так называемой «джинсы», вводится поисковое слово, например «Солнце», и все что находится каким то образом передается в монтажную систему.
Сказано-сделано, через какое то время я выложил приложение Videoindex в Mac App Store.
Моя программа предлагает указать путь к папке с исходниками, выбрать одну из двух встроенных в приложение обученных моделей Core ML (или даже использовать свои личные модели, если такие имеются) и запустить сканирование вашей библиотеки видео.
Она будет распознавать объекты на видео и записывать информацию о пути к конкретному файлу и таймкоду найденного обьекта. После завершения сканирования, можно будет воспользоваться поиском, который выдаст все найденные фрагменты, соответствующие поисковому запросу.
Весь найденный список фрагментов можно будет экспортировать в формат XML, который как раз используется для переноса сохраненных секвенций с файлами и поддерживается практически всеми современными монтажными программами.
В итоге буквально в пару кликов все, что вы искали, окажется аккуратно выложено на секвенции в вашем проекте. То, что раньше могло занять буквально половину дня, сейчас займет пару минут.
Похожая (если не та же самая) технология распознавания используется в iOS для распознавания объектов на ваших фото, и облегчает навигацию по альбомам в iPhone.
Базовые модели машинного обучения используются для распознавания видеообъектов. Приложение поставляется с двумя моделями — YOLOv3 и Resnet50. Вы можете использовать их вместе и по отдельности, а также как свои собственные файлы моделей Core ML.
Управление моделями производится в окне настроек где доступныаж три слота для загрузки моделей. Первый слот предназначен для модели YOLOv3, второй — для Resnet50, а третий слот доступен для загрузки ваших собственных файлов модели Core ML.
Videoindex активно отслеживает состояние каталогов, которые вы добавили для сканирования. То есть, если вы удалите или добавите файлы в папку, указанную в программе, эти изменения будут сохранены в базе данных Videoindex при следующем запуске. Если появляются новые файлы, статус просканированной папки изменится на «Еще не просканирован», и вы сможете сканировать новые видеофайлы.
Конечно, нужно учитывать что качество индексации и поиска напрямую зависит от качества обученных моделей, которые содержат информацию о распознаваемых объектах. Но файлов моделей с каждым днем становится все больше, организуются сообщества, где доступны для скачивания файлы моделей в различных форматах, таких как Kaggle, или просто набор картинок – Dataset, которые используются для создания этих самых обученных моделей.
А пока предлагаю скачать Videoindex в Mac App Store и попробовать. На Mac с процессорами M1 особенно интересно, программа работает ещё быстрее, так как в этих чипах используются ML-акселераторы. Хотелось бы надеяться, что со временем, запустив последний Adobe Premier, мы увидим всего лишь одну кнопку с надписью «Cмонтировать» и все. :)