Нейросеть Dreamina: как превратить текст в видео, а фото — в правдоподобный дипфейк

Генерация видео, дубляж и ИИ-аватары — тестируем сервис от CapCut.

Детище CapCut в апреле научилось превращать текст в видео, а фото — в двигающегося аватара с озвучкой. В том числе на русском языке. Инструмент можно использовать как домашнюю киностудию, ассистента для создания постов в соцсетях или просто игрушку, чтобы впечатлить друзей в мессенджерах. Как работает Dreamina, что умеет и сколько стоит — в этом тексте.

Содержание:

Как начать пользоваться Dreamina

Пока инструментом нельзя воспользоваться с российским IP-адресом. Но если обойти региональные ограничения, вся функциональность становится доступна в полном объёме.

Как зарегистрироваться в Dreamina:

  1. Перейдите на официальный сайт нейросети.
  2. Авторизуйтесь через Google, TikTok, Facebook (принадлежит Meta, которая признана экстремистской на территории России), аккаунт CapCut Mobile или электронную почту.
  3. Укажите дату рождения (пользоваться платформой можно с 18 лет).

На главной странице сервиса пользователь видит ленту с изображениями, сгенерированными другими пользователями. Если навести курсор на любое из них, появится кнопка «Use prompt» — она позволяет скопировать промпт и использовать его для создания своего изображения.

В верхней части экрана представлены три кнопки с выбором режима генерации:

  • «Image generator» («Генератор изображений») — для генерации картинок по текстовому промпту.
  • «Video generator» («Генератор видео») — для видео на основе промпта или фото.
  • «AI avatar generator» («Генератор ИИ-аватаров») — для дипфейков, которые озвучивают пользовательский текст.
Перейти к инструментам можно и по кнопкам в боковой панели — «Image generator», «Video generator» и «Lip sync» соответственно. Источник: dreamina.capcut.com
Перейти к инструментам можно и по кнопкам в боковой панели — «Image generator», «Video generator» и «Lip sync» соответственно. Источник: dreamina.capcut.com

Сколько стоит Dreamina

При регистрации пользователь получает 120 бесплатных кредитов (этого хватит на генерацию в среднем трёх роликов, в зависимости от модели), в дальнейшем — по 60 ежедневно. Каждые сутки кошелёк обнуляется, так что накопить 160 кредитов, необходимых для генерации дополнительного ИИ-аватара, не получится.

Платная версия начинается от $15 ежемесячно, оплатить российской картой нельзя. За эту сумму пользователь получает 1010 кредитов в месяц, возможность скачивать контент без водяных знаков, а также увеличенную длину видео и размер фото.

Источник: dreamina.capcut.com  
Источник: dreamina.capcut.com  

Как сгенерировать изображение

После перехода в раздел «Image generator» открывается редактор генерации. Промпт необходимо указать в верхнем поле, текст можно вводить и на русском языке.

Чтобы упростить себе задачу, пользователь может загрузить референс по кнопке «Reference» — в этом случае нейросеть скопирует стиль и цветовую гамму прикреплённого изображения.

Источник: dreamina.capcut.com
Источник: dreamina.capcut.com

Кроме того, в интерфейсе есть несколько настроек:

  • «Model» — позволяет выбрать версию нейросети. А точнее — модели. Независимо от выбора, одна генерация стоит два токена (подробнее о расценках — в разделе).

Промпт: «Цветная фотография женщины в элегантной позе в стиле Vogue. Её лицо хорошо видно, оно наполнено атмосферой тайны и художественной интриги. Женщина смотрит прямо в камеру. Освещение драматическое, мягкие блики подчёркивают детали её рук, одежды и позы. Композиция кинематографична и очень реалистична, а HD-качество точно передаёт каждую текстуру. Вневременная, эмоциональная и визуально захватывающая эстетика, грация и элегантность».

  • «Dimensions» и «Size» — с их помощью можно указать соотношение сторон и размер кадра (в пикселях — от 512 до 1360).

Возможности генерации не ограничиваются созданием портретов. Пользователь может, например, создать набор стикеров, аватарку для соцсетей или поздравительную открытку.

Промпт: «Милый бигль, поедающий авокадо, с множеством поз и выражений, иллюстрациями в стиле книжки эмодзи на бежевом фоне. На шее у животного — бантик из жёлтой шерсти. Рядом с животным бабл-ти. В одной позе животное лежит, держась за живот, а в другой — пьёт чай из симпатичной чашки».

Источник: сгенерировано dreamina.capcut.com 
Источник: сгенерировано dreamina.capcut.com 

А это — изображение по запросу «A “happy birthday!” card with cartoon styled cats. Card has a greeting: “Live! Laugh! Love!”».

Источник: сгенерировано dreamina.capcut.com 
Источник: сгенерировано dreamina.capcut.com 

Проблем с генерацией текста нет. Однако, несмотря на то что нейросеть «понимает» промпты на русском языке, сгенерировать текст на кириллице не получится. Алгоритмы упорно переводят надписи на английский. Например, так выглядит генерация по запросу «Открытка на день рождения с мультяшными котами. На открытке пожелание „Улыбайся! Живи! Люби!“».

Алгоритмы перевели «Улыбайся! Живи! Люби!» на английский. Источник: сгенерировано dreamina.capcut.com 
Алгоритмы перевели «Улыбайся! Живи! Люби!» на английский. Источник: сгенерировано dreamina.capcut.com 

Как создать ИИ-аватар (aka дипфейк или липсинк)

В Госдуме уже рассматривают законопроект, который вводит ответственность за использование дипфейков с целью мошенничества.

Интерфейс отличается от генератора изображений. Здесь пользователю предлагается загрузить фото с персонажем, которого необходимо анимировать. Важно, чтобы в кадре было лицо, размер файла — не больше 20 Мб.

Затем в разделе «Lip sync» необходимо загрузить готовое аудио («Upload audio») или ввести текст, который озвучит нейросеть («Text to speech»). Во втором случае длина фразы не должна превышать 15 секунд.

Всего на выбор доступно 28 голосов: 5 женских, 10 мужских и 13 стилизованных — например, голос «милой девочки» или Санта-Клауса. Текст на русском языке могут озвучить только женские и мужские голоса, стилизованные работают исключительно на английском и нескольких европейских. Важно учитывать, что у разных голосов разная скорость речи — поэтому и длина ролика может отличаться.

Источник: dreamina.capcut.com
Источник: dreamina.capcut.com

Чтобы анимировать ИИ-аватар, возьмём персонажа, сгенерированного нейросетью в предыдущем разделе. В качестве голоса используем Lily.

Источник: сгенерировано в dreamina.capcut.com

Генерация видео длиной в 11 секунд заняла около 15 минут — чем длиннее текст, тем больше времени у нейросети уйдёт на создание ролика.

В день пользователю доступна одна бесплатная генерация ИИ-аватара, за неё сервис не списывает внутреннюю валюту. Каждый следующий дипфейк обойдётся в 160 кредитов.

Как сгенерировать видео

На основе текстового описания («Text prompt»)

Длина промпта не должна превышать 500 символов.

Источник: dreamina.capcut.com
Источник: dreamina.capcut.com

С помощью раздела «Model» в панели настроек слева пользователь может выбрать модель для генерации.

Video 1.0

Даёт больше возможностей для настройки:

  • «Camera control» — движение камеры (приближение, отдаление, поворот по или против часовой стрелки).
  • «Motion speed» — скорость объектов (медленно, нормально, быстро).
  • «Aspect ratio» — соотношение сторон (16:9, 4:3, 1:1, 3:4, 9:16).

У платных пользователей есть ещё две настройки:

  • «Videos to generate» — количество видео (до 5).
  • «Relaxed generation» — если активировать, на генерацию уйдёт от 8 до 24 часов, но её стоимость снизится.

Каждая генерация стоит 24 токена и занимает около минуты. Длина итогового видео — три секунды.
Промпт: «Красочное видео с танцующей женщиной в стиле Vogue. Её лицо хорошо видно, но оно наполнено атмосферой тайны и художественной интриги. Женщина смотрит прямо в камеру. Освещение драматическое, мягкие блики подчёркивают детали её рук, одежды и позы. Композиция кинематографична и очень реалистична. Вневременная, эмоциональная и визуально захватывающая эстетика, вызывающая грацию, элегантность и спокойную интенсивность».

Модель Video 1.0, остальные параметры по умолчанию. Источник: сгенерировано dreamina.capcut.com 

Video S2.0 Pro

Позволяет настроить только соотношение сторон.

Каждая генерация стоит 40 токенов и занимает около часа (хотя сайт пугал значением в пять часов). Длина итогового видео — пять секунд.

Модель Video S2.0 Pro, остальные параметры по умолчанию. Источник: сгенерировано dreamina.capcut.com 

Из-за длины видео и особенностей кадра танец плохо считывается, но всё равно результат выглядит намного более естественно и реалистично.

На основе фото («Image prompt»)

Генерация на основе первого/последнего кадра устроена точно так же, только вместо промпта с детальным описанием стиля достаточно загрузить исходное фото и описать действие.

Так, например, выглядит фото из первого раздела, если бы девушка танцевала.

Источник: сгенерировано dreamina.capcut.com

На видео видны типичные «галлюцинации» нейросети. Так, руки мутируют в ткань и обратно, а число пальцев постоянно меняется. Глаза и зрачки тоже выглядят неестественно.

Коротко: что такое Dreamina

  • Dreamina — универсальный ИИ-инструмент для генерации картинок, видео и дипфейков на основе текста и фото.
  • Поддерживает русский язык в промптах, но надписи на кириллице пока не генерирует.
  • В бесплатной версии пользователь получает 120 кредитов в первый день и по 60 в следующие. Одна генерация фото стоит 2 кредита, видео — 24 или 40 кредитов. В день также можно бесплатно сгенерировать один дипфейк.
  • Платная версия начинается от $15 в месяц, из России оплатить не удастся.

А вы не боитесь распространения дипфейков из-за подобных инструментов?

5
3
Начать дискуссию