Как используют решения на базе ИИ в видеостриминге?

Использование искусственного интеллекта (ИИ) для оптимизации видеостриминговых платформ начало развиваться активно в последние 10-15 лет. Давайте, попробуем рассмотреть несколько ключевых этапов внедрения ИИ в эту сферу:

Первая половина 2010-х годов:

1. Рекомендательные системы:

В 2012 году в ИТ-сфере началось развитие использования ИИ для анализа пользовательских предпочтений. В 2013 году видеостриминговые платформы начали разрабатывать и тестировать использование ИИ для анализа данных о просмотрах, лайках, комментариях и других взаимодействиях пользователей с контентом, чтобы предлагать персонализированные рекомендации. Алгоритмы машинного обучения (ML) используют эти данные для построения моделей, которые предсказывают интересы конкретных пользователей. В 2014 году такие платформы, как Netflix и YouTube, начали внедрять рекомендательные системы на основе ИИ. В 2015 году Netflix первым в видеостриминге окончательно перешел от базовых алгоритмов рекомендаций к более сложным моделям машинного обучения для персонализации главной страницы каждого пользователя. Немного позже в этом же году это сделал YouTube. В 2016 году YouTube значительно усовершенствовал эту систему, включив в нее архитектуру глубокого обучения, что сделало ее одной из первых платформ, развернувших глубокие нейронные сети производственного уровня для своих алгоритмов рекомендаций.

2. Улучшение качества стриминга в реальном времени:

В начале 2010-х получили развитие технологии адаптивного битрейта (Adaptive Bitrate Streaming, ABR), они начали использоваться для улучшения качества стриминга в реальном времени, адаптируясь к скорости интернета пользователей и производительности устройства, на которое воспроизводится видео. ИИ анализирует исторические данные о пропускной способности сети для предсказания будущих изменений. На основе этих прогнозов алгоритмы ABR могут заранее адаптировать качество видео, чтобы минимизировать буферизацию и прерывания. Также ИИ оценивает качество опыта пользователя, учитывая такие параметры, как частота буферизации, время задержки, разрешение видео и количество артефактов. ИИ анализирует индивидуальные предпочтения и поведение пользователей, такие как типы просматриваемого контента и привычки использования. Это позволяет адаптировать параметры стриминга для каждого пользователя, обеспечивая наилучшее качество воспроизведения. Внедрение в 2012 году ABR позволило Netflix предложить плавный просмотр видео даже при нестабильном интернете. В 2015 году внедрение ABR стало стандартом для большинства крупных видеостриминговых платформ, включая Amazon Prime Video и Hulu. Эти компании начали активно применять ABR для улучшения пользовательского опыта, позволяя воспроизводить видео с высоким качеством даже на мобильных устройствах и при медленных интернет-соединениях.

3. Улучшение качества видео:

В начале 2010-х стало понятно, что ИИ может использовать методы суперразрешения (super-resolution) для улучшения качества видео, масштабируя его до более высокого разрешения. Суперразрешение основывается на применении нейронных сетей для увеличения детализации и четкости изображений и видео. Суперразрешение может использоваться для восстановления и улучшения качества старых фильмов и видеозаписей, делая их более четкими и детализированными. Видеостриминговые сервисы также могут использовать суперразрешение для передачи видео с более низким разрешением, которое затем масштабируется до более высокого качества на стороне пользователя. Это позволяет снизить нагрузку на сеть и улучшить качество видео при ограниченной пропускной способности интернета. Ведущие игроки рынка долго занимались исследованиями в этом направлении, и внедрять методы суперразрешения стали только во второй половине 2010-х годов (Google в 2016 году, Netflix – 2017, YouTube – 2018, Tencent – 2019).

Вторая половина 2010-х годов:

4. Обработка контента:

ИИ начал применяться для автоматической модерации контента и анализа видео, что позволило быстрее и эффективнее управлять большими объемами данных. Как пример, с 2015 года ИИ помогает YouTube обнаруживать и удалять нежелательный контент, такой как порнография, насилие или нарушение авторских прав, а с 2016 года ИИ может помогать Facebook в модерации комментариев и чатов, удаляя спам и оскорбительные сообщения. В 2017 году появился ИИ-анализ и модерация твитов вTwitter, в 2018 году – удаление нарушений авторских прав в Instagram, в 2019 году – в TikTok, в 2021 – в Twitch.

5. Виртуальные помощники и чат-боты:

В 2016 году Amazon Prime Video был интегрирован с виртуальным помощником Alexa. Пользователи могут использовать голосовые команды для поиска и воспроизведения контента. Например, команда "Alexa, покажи мне комедийные фильмы" запускает подборку рекомендованных комедий на основе предпочтений пользователя. В 2017 году Netflix начал использовать чат-ботов для автоматизации службы поддержки. Чат-боты могут помогать пользователям с вопросами о подписке, настройкой аккаунта и проблемами с воспроизведением видео. Они используют NLP для понимания запросов и предоставления соответствующих ответов. В 2018 году YouTube интегрировал поддержку Google Assistant, позволяя пользователям управлять воспроизведением видео через голосовые команды. Пользователи могут попросить Google Assistant воспроизвести определенное видео, поставить паузу или перемотать на нужный момент.

6. Создание контента:

Начиная с 2017 года ИИ может анализировать существующий контент и автоматически создавать на его основе короткие видео, трейлеры и тизеры. В 2018 году IBM разработала систему на базе Watson, которая использовалась для создания трейлера к фильму "Морган" (Morgan). Система проанализировала сотни трейлеров хоррор-фильмов, чтобы определить, какие сцены наиболее эффективно создают напряжение и интригу. На основе этого анализа ИИ выбрал подходящие сцены из фильма и скомпоновал их в трейлер. С 2019 года ИИ позволяет создавать высокореалистичных виртуальных персонажей, которые могут взаимодействовать с живыми актерами или существовать в полностью анимированных мирах. Это особенно полезно для фильмов и сериалов, требующих сложных визуальных эффектов. В 2019 году компания Digital Domain, известная своими CGI-эффектами, использовала ИИ для создания реалистичного цифрового двойника актера Джоша Бролина для фильма "Мстители: Финал" (Avengers: Endgame). ИИ-алгоритмы помогли воспроизвести мельчайшие детали мимики и движений актера, что сделало его цифрового персонажа Таноса максимально реалистичным. В 2020 году Lucasfilm использовал ИИ-технологии для улучшения CGI-эффектов в сериале "Мандалорец" (The Mandalorian). ИИ-алгоритмы использовались для создания реалистичных анимаций и текстур виртуальных существ и окружений, делая их более детализированными и правдоподобными, что позволило достичь высокого уровня визуального качества в ускоренные сроки и при сравнительно низких затратах. Сериал получил многочисленные положительные отзывы за свои визуальные эффекты и стал одним из самых популярных шоу на платформе Disney+.

7. Компьютерное зрение и обработка естественного языка:

В 2018 году Facebook внедрил технологию распознавания лиц в своих видеосервисах. Эта технология использует алгоритмы глубокого обучения для автоматической идентификации людей на видео и фотографиях. Например, при загрузке видео с вечеринки, система может автоматически отметить присутствующих друзей, что упрощает процесс тегирования и улучшает взаимодействие пользователей с платформой. В 2020 году Google Photos внедрил улучшенные алгоритмы распознавания объектов. Эти алгоритмы могут автоматически распознавать и классифицировать объекты на фотографиях и видео, такие как "кошка", "праздник", "пляж" и т.д. Например, пользователь может быстро найти все видео, на которых запечатлены его домашние животные, используя простой поисковой запрос. В 2019 году YouTube улучшил свою функцию автоматической генерации субтитров с помощью технологий NLP. Новые алгоритмы на основе глубокого обучения улучшили точность распознавания речи, включая сложные акценты и диалекты. Например, видео на различных языках могут быть автоматически транскрибированы и переведены, что делает контент доступным для широкой аудитории. В 2021 году IBM разработала систему, которая использует компьютерное зрение и NLP для анализа новостных видеороликов. Система может автоматически распознавать лица политиков, идентифицировать объекты (например, логотипы компаний) и анализировать речь, чтобы создавать краткие сводки новостей.

Начало 2020-х годов:

8. Анализ аудитории с использованием ИИ:

В 2020 году Netflix внедрил систему, основанную на ИИ, для анализа данных о просмотрах и взаимодействиях зрителей включая количество просмотров, длительность просмотров, частоту лайков, комментариев и другие формы взаимодействия. Эта система помогла компании понять, какие типы контента наиболее популярны среди разных сегментов аудитории. Например, анализ показал, что пользователи в возрасте от 18 до 24 лет предпочитают смотреть научно-фантастические сериалы и фильмы о супергероях. На основе этих данных Netflix начал инвестировать больше ресурсов в создание контента, который соответствует интересам этой возрастной группы, что привело к увеличению подписок и удержанию аудитории. В 2021 году YouTube начал использовать ИИ для предсказания трендов на основе анализа исторических данных о просмотрах, поисковых запросах и взаимодействиях зрителей. Система ИИ выявила, что интерес к видео о здоровом образе жизни и фитнесе значительно вырос в первые месяцы пандемии COVID-19. Благодаря этим предсказаниям, YouTube начал продвигать и рекомендовать больше видео, связанных с фитнесом и здоровьем, когда были новые волны COVID, что увеличило вовлеченность пользователей и помогло создателям контента в этой нише получить больше просмотров и подписчиков.

9. Оптимизация метаданных:

В 2019 году Google представил технологию Video AI, которая может автоматически создавать раскадровки для длинных видео. Например, для полуторачасового документального фильма ИИ может выделить ключевые моменты, такие как интервью с экспертами, важные события и т.д. Это полезно для предварительного просмотра содержания видео и ускорения его обработки. Начиная с 2020 года ИИ в YouTube может анализировать содержание видео и автоматически создавать релевантные теги. Эти теги помогают улучшить видимость видео в поисковых системах и на платформах видео-хостинга. Например, если видео содержит сцены природы, ИИ может предложить теги типа "природа", "пейзаж", "дикое животное". В 2020 году Twitch внедрил функцию Highlights, основанную на ИИ, которая автоматически создает подборки ключевых моментов стримов. Например, в стриме по видеоиграм ИИ может выделить моменты с наиболее зрелищными боями или неожиданными поворотами событий. Это помогает пользователям быстро находить интересные части видео без необходимости просматривать его полностью. Благодаря инструменту от компании Descript c 2021 года ИИ может анализировать текст и аудио в видео и на основе этого создавать описания и заголовки. Это упрощает процесс загрузки видео для создателей контента и помогает улучшить SEO. Например, если видео представляет собой интервью с известным учёным, заголовок может быть "Интервью с профессором Ивановым о квантовой физике".

Таким образом, начиная с начала 2010-х годов и до сегодняшнего дня, использование ИИ в видеостриминге эволюционировало от базовых систем рекомендаций до сложных многокомпонентных решений, охватывающих все аспекты работы с видеоконтентом.