Как упростить работу с фото и видео с помощью ИИ?

Инвестиции в решения на основе искусственного интеллекта наращиваются. Например, только ИИ стартапы в 2023 году привлекли рекордные $27 млрд, превысив предыдущий рекорд на $16 млрд. Тем не менее, многие пока еще не до конца понимают, как применить ИИ в повседневной жизни. Рассказываем, как ускорить и упростить работу с медиаконтентом с помощью ИИ.

Если раньше бизнес в основном работал с текстовым контентом, то сейчас растет доля медиа активов: аудио, видео, фото, графические изображения или презентации. Они становятся неотъемлемой частью как внешних, так и внутренних коммуникаций во всех индустриях. Например, отделы продаж используют презентации, HR-отделы собирают фото и видео с корпоративных мероприятий в рамках тимбилдинга, производственные кластеры обучают новых сотрудников с помощью 3D-моделей.

Оказалось, что это крайне трудоемкая задача. Например, 36% создателей цифрового контента для социальных сетей тратят на такие задачи 1-5 часов в неделю. Тогда как большинство — 57% опрошенных Statista — более 5 часов в неделю. Из них 27% — до 10 часов или четверть рабочего времени, 16% около половины рабочего времени (до 20 часов в неделю).

Чтобы оптимизировать задачу по управлению медиа контентом, создали DAM-системы. Однако даже там сохраняется много ручного труда. Приходится самостоятельно описывать активы, сортировать и обрабатывать. Многие такие задачи уже решает ИИ. Подобрали топ-5 кейсов по использованию искусственного интеллекта, которые позволят ускорить управление медиа активами и работу с ними.

Искусственный интеллект умеет анализировать не только текст, но и медиаконтент. ИИ буквально сканирует изображение или видео и распознает объекты, лица, логотипы, контент 18+ и другое. При распознавании алгоритм анализирует и описывает найденные элементы. Еще он определяет похожие элементы, чтобы категоризировать объекты или людей на фото. Например, если вы храните свои медиаактивы в DAM-системе «Пикварио», ИИ распознает все фото и видео с вами (или любым другим человеком). Аналогично работает и распознавание объектов: благодаря ИИ система распознает предметы интерьера, животных и другое. Все найденные объекты тегируются по автоматически сгенерированным описаниям.

Как упростить работу с фото и видео с помощью ИИ?

Аналогичный функционал есть в облаке mail.ru, VK Cloud и других сервисах. Установить ИИ-алгоритм для распознавания лиц и объектов можно в любой сервис за счет интеграции сторонних решений. Например, Everypixellaps предлагает алгоритм для распознавания объектов и установки связей между ними и генерации ключевых слов (или тегов).

По данным International Data Corporation , сотрудники тратят до 30% рабочего времени на поиск нужного фото. Это примерно 2,4 часа в день при стандартном 8-часовом графике. ИИ помогает сократить поиск до нескольких секунд. Благодаря функции распознавания лиц и объектов, а также их тегирования и автоописания, ИИ позволяет быстро искать медиаконтент. Например, ИИ алгоритмы в PhotoPrism классифицируют и маркируют изображения, анализируя их содержание.

С развитием функционала по генерации речи, ИИ-алгоритмы научились создавать полноценное описание изображения «человеческим языком». То есть вместо отдельных или несогласованных «кит», «океан», алгоритм составит полноценное описание «синий кит, плывущий в океане».

При этом ИИ умеет анализировать связи в описании, определяя степень важности каждого элемента. Это позволяет искать медиаконтент на естественном языке. Допустим, если в Пикварио ввести запрос «девушка в красном платье», то система будет искать в вашем пространстве именно девушку в красном платье, а не отдельные изображения девушки, платья и чего-то красного.

На перевод «аудио/видео — текст» можно потратить часы.Например, чтобы транскрибировать 15 минут понятной медленной аудиозаписи, в среднем понадобится около часа. А если запись в плохом качестве или спикер говорит слишком быстро? Тогда время «перевода» увеличится в разы.

Поскольку ИИ умеет качественно распознавать не только людей или объекты, но еще и речь, время транскрибации 15-минутного ролика сокращается с часа примерно до минуты. Пользователю нужно лишь загрузить аудио/видео в систему и запустить транскрибацию. Например, такой функционал доступен у сервиса AI Transcription. ИИ способен расшифровать аудио и видео более чем на 100 языках. После доступно редактирование файла: добавление подписей и субтитров, вырезание фрагментов и расстановка тайм-кодов.

Помимо транскрибации, функция распознавания речи и ее перевод в текст применяется в поисковых системах и виртуальных ассистентах для голосового поиска. Для распознавания речи в реальном времени используют потоковое распознавание Яндекс SpeechKit

Хотя пока возможности ИИ в обработке медиаконтента довольно ограничены, они уже позволяют сэкономить время и выполнить некоторые задачи без дизайнера. Например, автоматическая цветокоррекция уже давно интегрирована в базовый функционал смартфонов.

В последнее время ИИ продолжил развиваться и позволил автоматически увеличивать масштаб изображения без потери качества (например, в сервисе Big JPG) или убирать фон, как будто бы вырезая основной элемент: это возможно в AI Image Enlarger или Canva.

Работа с фоном особенно востребована в сфере электронной коммерции, которая активно развивается в последние годы. Так, продавцы маркетплейсов могут фактически в один клик подготовить качественное изображение товара для карточки. Те, кто стремится выделиться, могут создать более интересный фон. Например, Flair AI предлагает шаблоны для создания визуально привлекательных изображений товаров. Нужно лишь загрузить оригинал и можно экспериментировать с фонами и стилями.

Еще в сфере рекламы пользуется популярностью услуга по анонимизации людей: другими словами, нужно изменить черты лица модели. PiktID поможет анонимизировать лица на изображении, например, сгенерировать и вставить уникальный аватар или поэкспериментировать с чертами лица.

Традиционно для создания медиаконтента привлекали дизайнеров, которые могут потратить несколько часов или дней на создание одного актива. С появлением и распространением GPT с этой задачей быстро справляется ИИ. Например, сервис Kandinsky 3.0 от Сбера генерирует изображение по текстовому описанию за несколько секунд. Чем подробнее описание, тем лучше результат. Можно экспериментировать со стилями и разрешениями. В Kandinsky 3.0 предусмотрено 16 стилей: от реализма до аниме. Похожий функционал у сервисов DALL-E от Open AI и MidJourney.

Еще ИИ позволяет быстро генерировать инфографику. Например, в Piktochart есть настраиваемые шаблоны и достаточно простой редактор, чтобы в несколько кликов создать инфографику в брендовых цветах.

Помимо изображений, ИИ может генерировать и видео на основе текстового описания. Например, в Runway пользователи не только создают видео, но и обрабатывают отдельные слои ролика, редактируют его скорость, добавляют субтитры, применяют визуальные эффекты, создают изображения и анимируют их.

Технологии искусственного интеллекта позволяют бизнесу избавиться от рутинных задач и повысить продуктивность. Поскольку они постоянно развиваются, а новые уникальные решения появляются каждый день, компании будут применять ИИ все чаще. Сейчас для этого нужно использовать несколько сервисов, а позже загрузить актив на платформу для управления медиаконтентом. Будущее за системами, которые смогут интегрировать ИИ-функционал во всем его разнообразии. Это обеспечит более качественный бесшовный опыт при работе с медиаконтентом. Например, уже сегодня облачные хранилища или DAM-системы, подобные Пикварио и Google Cloud предоставляют большинство возможностей искусственного интеллекта на своих платформах. Вероятно, скоро функционал расширится, чтобы закрыть все потребности при работе с медиа активами.

Как упростить работу с фото и видео с помощью ИИ?

1. Распознавание лиц и объектов

1. Умный поиск

2. Транскрибация

3. Обработка медиаконтента

1. Генерация контента

Будущее медиаконтента и ИИ