Стоит ли вкладывать усилия в разработку ИИ-генераторов видео?

Pika – один из конкурентов многочисленных стартапов по типу Runaway, Stable Diffusion.

В этом обзоре:

Мы расскажем об инвестиционной привлекательности Pika после революции Sora от OpenAI.

Куда стоит двигаться разработчикам ИИ-генераторов, чтобы не утонуть в гонке исследовательских мощностей.

Round: $55 m, ноябрь.

Pika – генеративная нейросеть для создания коротких видеороликов. Она поддерживает три режима text-to-video, video-to-video, image-to-video – стандартный для большинства нейросетей.

Стартап привлек в ноябре 55 миллионов долларов.

Раньше получить доступ просто — нужно было зарегистрироваться через Google или Discord. Теперь за тест нейросети нужно доплатить.

После регистрации вас сразу переведут на страницу Explore, где можно посмотреть, работы сделанные другими пользователями.

Снизу понятная форма, куда можно вписать свои промпты и отработать материал. Кстати, генерация видео ограничена минимальными 24 кадрами, а вот разрешение можно подобрать даже 4:5.

Camera control. Да, у вас есть возможность управлять наклоном, зумом, скоростью и перемещением камеры прямо в сгенерированным видосах. И, безусловно, даже здесь есть негативные промпты, чтобы ИИ могла скорректировать видео и убрать нежелательные деформации или лишние объекты из кадра.

Дальше все, как обычно, мы вписываем промпты и постепенно заставляем нейросеть сгенерировать что-то приемлемое. Можно использовать некоторые "популярные" промпты и напрямую задавать стиль анимации: "Marvel Studios/Ghibli animation".

Можно сразу добавлять эталонные видео или изображения и нейросеть подстроится под запросы.

Пока все в шоке от нового ИИ от OpenAI Sora пришло время обсудить и конкурентов. Но Пика не совсем конкурент Sora – он больше ориентирован на производство анимации.

Уже 7 лет среди 3D художников на тематических форумах, группах в ВК и ТГ, обсуждается замена художников ИИ. Да, хайп на ИИ пришел примерно на 22-23 год, а вот зарождаться тема "замены" художников начала еще в 16-17 годах, когда появились первые ИИ, генерирующие искусства. Уже тогда Илон Маск вбрасывал громкие заявления об опасности нейросети, а профессора информатики из лабораторий обещали прорывы в ближайшие 5-10 лет.

Так и случилось.

<p>Результаты работы университетских ИИ.</p>

Интервью профессора по информатике 2017 года.

Но все дискуссии завершились простым ответом: для художников нейросети — своего рода спасение, с ним попросту экономятся десятки часов ради подлинного творчества. Но между видео, сгенерированными нейросетями, и работами студий по анимации есть фундаментальная разница — гибкость. Все ИИ-генераторы создают контент в ограниченном наборе понятных и узнаваемых стилей.

Да, их действительно можно отыскать на artstation.ru и они практические не уступают по качеству. Но настоящая работа любой студии — это планомерная режиссерская и концептуальная работа.

Pika – неплохой инструмент, который после доработок (исправления артефактов) мог бы стать неплохим подспорьем для малого/среднего бизнеса, не готового платить несколько миллионов рублей за высококачественный студийный видос.

И вот проблема в том, что представленная совсем недавно Sora, которая “хайпанула” из-за своего гипперреализма и минимума дефектов, подняла вопрос дип-фейков. Настолько качественно она генерирует видео с текста. Насколько подобный проект будет универсален для задач художников – большой вопрос. Чем универсальнее, гибче – тем вероятнее, что у конкурентов возникнут проблемы, включая Pika.

Конкуренция Pika с Sora сейчас будет вестись на уровне цен. Если цены у последней окажутся приемлемыми даже для пользователей – Runaway и Pika, возможно, станут неконкурентоспособными и уйдут с рынка.

С другой стороны, опенсорсность технологии и возможная гонка оптимизаций поможет Runaway/Pika продвинуться вперед, но, к сожалению, гонка "исследовательских" мощностей вынуждает компании конкурировать буквально насмерть. Единственный выход — индивидуализация сервиса, получение исключительных преимуществ. И еще… у OpenAI под рукой мощнейшая LLM. Cкорее, Sora будет лучше понимать запросы пользователей, чем любая другая нейронка формата text-to-video.

С инвестиционной точки зрения лучше взглянуть на другие проекты. Проблема в том, что генерация ИИ сейчас растет бешеными темпами и мы не удивимся, если через год уже увидим проапскейленный Sora с возможностью генерации пятиминутных фильмов с полноценным сторрителлингом.

Нет смысла гнаться за корпорациями, как и вкладывать деньги в что-то помимо Google или OpenAI, который обгонят кого-угодно. Но и тут есть ряд решений.

Все крупные корпорации нацелены на создание универсальных крупных ИИ-генераторов: и реализм, и Пиксаровские мультфильмы, и Sci-Fi...

Вот только в реальном PR компании хотят, чтобы был узнаваем их бренд, а не стиль Runaway, который распознает любой неопытный пользователь с первых секунд. Поэтому популярность ИИ-генератора, скорее, проблема, которая работает в обратном направлении и отталкивает бизнес от делегирования создания контента нейросетям.

Универсальность стилей – самый важный фактор, определяющий успех ИИ-генератора на рынке.

Чтобы лучше понимать, какой ИИ-генератор окажется "уместным" на рынке стоит взглянуть на список потребностей продакшенов – они и должны стать главными клиентами небольшого, но успешного стартапа.

1. Курс на motion-дизайн/векторную графику. Плюс любых генераций в моушене — они могут быть нереалистичными. Они должны сохранять понятные "художественные" паттерны и правила, работать подобно шейпам в условном Blender или Cinema4D. Да, их генерации должны напоминать работу 2D художника в After Effects и Illustrator, 3D художника, генерирующего свои наработки в самых популярных рендерах.

Действительно интеграция работы ИИ-сервиса с популярными программами – огромный маркетинговый буст стартапу и автоматический прирост клиентов. Работа с графикой – иногда монотонная и трудоемкая, требующая десятки часов насиживания “мягкого места” и любая автоматизация работы будет восприниматься художниками, как дань с небес. Если “делегирование” работы ИИ не ухудшит значительно качество работы.

Предварительно следует провести фокус-группы, интервью для оценки возможностей развертывания нейросетей в процессе производства видеоконтента. Что больше нужно художникам? Заготовленные паттерны анимации под готовые шейпы из иллюстратора, генерация эффектов/переходов или все сразу.

Также стоит оценить возможности интеграции нейросети.

<p>Вот пример неплохого ИИ, генерирующего “скелет” и анимации движения персонажа.</p>

И вот тут мы переходим к другому аспекту актуального ИИ-генератора.

2. Максимизация гибкости. Будьте уверены, вряд ли ваш генератор (тот же Sora) подойдет для всего процесса производства контента. Перебивка/эффект — вот удел современных генераторов. Но в этом есть свои плюсы, так как у разработчиков есть реальная возможность занишеваться под требования продакшенов.

Максимизация гибкости – это способность к редактированию, здесь, возможно, стоит рассмотреть прямую интеграцию с программным обеспечением и, например, создание настроек под сгенерированные ИИ кадры: слои, разбивка на шейпы, анимация по ключам с графиками(скорости изменений), эффекты и так далее.

Допустим, часть motion-дизайнеров не успевает сделать 5 секунд анимации, а клиенту срочно нужно что-то сдать. Нейросеть может слегка понизить качество и связность всего ряда, но спасти компанию от убытков и конфликтов с клиентами. Тем более, нейросети могут сократить часть штата сотрудников, например, выполняющих однозадачную работу в проекте.

Ориентировка на частные задачи продакшенов — большой плюс таких стартапов. Да, их продукты становятся не пользовательскими, предполагают иной подход к рынку, но значительно конкурентнее и "полезнее" для производства контента.

Если ИИ не могут заменить художников — пусть они станут их хорошими помощниками.

3. Минимизация узнаваемости. Проблема многих генераторов (не только видео, но и изображений) – их узнаваемый стиль. Пока что использование генераций не приносит +1 respect к работе продакшенов.

Чтобы избежать узнаваемости следует сделать акцент на обобщенности и простоте, например, анимации. Следует избирательнее относиться к данным, которые скармливаются нейросети.

Рынок генерации видео при помощи искусственного интеллекта уже достаточно насыщен конкурентами. Существует множество компаний, развивающих подобные технологии, что делает вход новых игроков сложным и требующим значительных инвестиций для дифференциации и конкурентоспособности.

Но подобная попытка пойти навстречу не рядовым пользователям, а серьезным маркетинговым агенствам и продакшенам – дает шанс любому стартапу достучаться до своей аудитории и даже “заколлабиться” с такими гигантами как Adobe или Algoritmic.

Вау, вы дочитали до конца! Это просто замечательно, спасибо вам за ваше внимание :) Если вам понравилось, мы будем рады вашим лайкам и комментариям. К тому же, если вы подпишетесь на наш телеграм-канал, то всегда будете в курсе самых громких стартапов, которых ещё нет в России — каждую неделю мы выпускаем обзоры!

Стоит ли вкладывать усилия в разработку ИИ-генераторов видео?

На что способен Pika?

Гонка ИИ-генераторов видео за успехом: какие шансы у нейросетей после Sora

Советы для взвешенных инвестиций: направить взгляд на продакшены?