Нейросеть Gen-2 вышла в открытый доступ. Вот, что она умеет

Привет, на связи Нейросекта! Сегодня потестируем новую генеративную нейросетку, которая создает видео по тексту. Посмотрим, как с ней работать и на что она вообще способна. Поехали :)

Официальный трейлер Gen-2

Суть этой нейросети довольно проста: она похожа на Midjourney, только генерирует по запросам не изображения, а видео. Слоган у Gen-2, кстати, классный: «Если ты можешь это представить, ты можешь это сгенерировать» (If you can imagine it, you can generate it).

Регистрация: нужен ли VPN или зарубежный номер?

Прежде чем разбираться в тонкостях Gen-2, начнем с самого первого шага. Регистрируемся в нейросети.

Процесс максимально простой — с регистрацией из России проблем не возникнет, поэтому VPN можете не включать. Если регистрироваться через гугл-аккаунт, на весь этот процесс у вас уйдет секунд 20.

Заходим на сайт Gen-2 by Runway, вводим свои данные. После этого вас перенаправит на рабочую область — там нажимаем Gen-2: text-to-video. Все, вы готовы создавать свои первые нейровидео!

Gen-2 — платная нейросеть, но при регистрации вы получите 105 пробных секунд для генерации видео. Длина создаваемого видеоролика — 4 секунды, и это время не может быть изменено.

Если вы оформите подписку за $15 в месяц, вам станут доступны дополнительные функции: повышение качества видео (upscale) и удаление водяных знаков. Учтите, что с ежемесячной подпиской вы все равно получите те же 105 секунд. Если они кончатся, придется либо ждать следующего месяца, либо докупать секунды. Каждая дополнительная секунда будет стоит $0.05. Классические методы оплаты из России не принимаются.

Впрочем, можно просто создавать новые учетные записи и заново получать бесплатные секунды, чтобы не заморачиваться с подписками.

Знакомимся с интерфейсом

Нейросеть Gen-2 вышла в открытый доступ. Вот, что она умеет

На данный момент настройки минимальны. Справа от строки ввода текста есть возможность загрузить фотографию в качестве референса для создаваемого видео. Об этом поговорим чуть позже.

Внизу находится меню настроек, где также не так много опций. Вы можете самостоятельно задать вес видео и немного "сгладить" его. Функция upscale (улучшение качества) и удаление водяного знака доступны только при наличии подписки.

Составляем промпт (описание будущего видео)

На сайте Runway есть короткое обучающее видео, но ничего нового мы оттуда не узнали. Промпты для этой нейросети составляются так же, как и для нейросетей, генерирующих изображения. Чем детальнее описание промпта, тем лучше результаты запроса.

Здесь стоит уделить особое внимание на описание движения камеры, угла обзора и перспективы.

Учтите, что вы не сможете создать уж слишком детальный промпт, так как ограничение составляет 320 символов. Кроме того, не получится задать длительность видео — оно всегда будет составлять 4 секунды.

Погнали на практике выяснять, какие промпты Gen-2 поймет лучше всего и способен ли он на что-то толковое

Простой промпт без деталей

Добавим, что промпты лучше всего писать на английском языке. Давайте сначала попробуем что-нибудь простое: спящий лев — a sleeping lion

Ну, получился точно лев. Пока что это точно не кадр из National Geographic...

Давайте больше движения. Пусть девушка куда-нибудь идет — a lady walking somewhere

Несмотря на то, что их почему-то стало две — выглядит... круто. Особенно для такого простенького запроса. Чем-то напоминает старую добрую экранку :) И ключицы как детально прорисованы!

Посмотрим последний короткий промпт — a hot cup of tea. Тут даже кадры сменяются и появился намек на сюжетность:

Усложняем промпты, добавляем детали

Что ж, хорошо, давайте добавим деталей к предыдущим промптам и попробуем разнообразить их. Детализированные промпты позволяют экспериментировать с разными углами съёмки, камерами, объективами, местами и даже режиссёрами. Чтобы не придумывать всё с нуля самостоятельно, воспользуемся Prompt Silo — помощником-генератором промптов.

Наша улучшенная версия льва: a lion sleeping in grass, direct3d render, unreal engine render, wide shot, realistic, quentin tarantino film style

Сразу получается уже что-то более интересное! Хотя до "реалистик" еще пока далеко, конечно.

Тут немного изменили lady на little girl для разнообразия: illustration of a little girl walking around in a forest, in the style of otherworldly creatures,32k uhd, charming characters, dark green, luminescent installations, joyful celebration of nature, dreamworks animation style

Если Midjourney и другим похожим нейросетям еще нужна дополнительная практика в рисовании рук, то Gen-2 еще предстоит большая работа с прорисовкой лиц. Тем не менее, уже сейчас заметно, как он отлично передает движение персонажа — будто девочка исследует таинственный лес, при этом осторожно крадется.

Посмотрим, как изменится наша чашечка чая: a hot cup of tea, style of Pablo Picasso, wes anderson film style, cinematic lighting, superrealistic, low angle, dark aesthetic

Движения в кадре минимум, но выглядит очень атмосферно. Как будто бы кадр из старого фильма.

Загружаем изображения-референсы

Теперь протетируем функцию загрузки фотографий, а заодно продолжим играться с промптами.

Сгенерировали этих забавных ребят в Unstability AI:

Нейросеть Gen-2 вышла в открытый доступ. Вот, что она умеет

Промпт добавим вот такой: human talking to a robot, Sci-fi futuristic, Wide shots and close-ups, Slow zoom out, in style of netflix documentary

Не совсем то, что мы ожидали, однако любопытно, что человек с референса в целом похож на парня с нашего первого арта. Может с белым фоном и минимальным количеством деталей будет лучше? Пробуем анимировать нашу фирменную Хлебособаку!

Нейросеть Gen-2 вышла в открытый доступ. Вот, что она умеет

А вот и промпт: dog made out of bread, disney style, blender render, octane render, unreal engine render, Panning from left to right

Ну, за референс он изображения брать старается, это видно. Вот у нашей Хлебособачки постарался сохранить узор на шерсти. Однако Gen-2 пока сложно справиться с созданием сложных и необычных изображений.

Еще немного экспериментов

Подводим итог

Gen-2, конечно, пока выглядит очень сыро. Иногда получается создать что-то интересное, но в большинстве случаев выходит нечто странное. И слегка смахивает на галлюцинацию.

В принципе, нет смысла оформлять подписку на данный момент. Да, это все интересно, но пока нигде особо не применишь.

Но опять же, давайте вспомним как в прошлом году выглядел Midjourney и как сильно он эволюционировал за год:

Нейросеть Gen-2 вышла в открытый доступ. Вот, что она умеет

И все-таки следить за такими обновлениями не только важно, но и чрезвычайно интересно. В мире нейросетей каждый день происходят новые и захватывающие события. Например, недавно парализованный парень с помощью нейросетевого имплантата заново научился ходить. А теперь вот нейросети способны создавать видео на основе текста.

Подписывайтесь на наш телеграм-канал: тараемся следить за всеми новостями в сфере ИИ, а еще устраиваем интерактивы и тестируем нейросети и промпты вместе с подписчиками.

Мы будем рады вашим отзывам и наблюдениям о Gen-2. Всегда готовы учиться вместе с вами :)

52
17 комментариев

Эталонная крипота

4
Ответить
3
Ответить
1
Ответить

Люди любят потреблять говно, зайдет

1
Ответить

Конкурент тиктоку. Отборная хуета в одном месте

Ответить

Какой размер кадра и fps?

Ответить

В Яндекс Алису нужно такую

Ответить