Нейросеть Gen-2 вышла в открытый доступ. Вот, что она умеет

Привет, на связи Нейросекта! Сегодня потестируем новую генеративную нейросетку, которая создает видео по тексту. Посмотрим, как с ней работать и на что она вообще способна. Поехали :)

Официальный трейлер Gen-2

Суть этой нейросети довольно проста: она похожа на Midjourney, только генерирует по запросам не изображения, а видео. Слоган у Gen-2, кстати, классный: «Если ты можешь это представить, ты можешь это сгенерировать» (If you can imagine it, you can generate it).

Прежде чем разбираться в тонкостях Gen-2, начнем с самого первого шага. Регистрируемся в нейросети.

Процесс максимально простой — с регистрацией из России проблем не возникнет, поэтому VPN можете не включать. Если регистрироваться через гугл-аккаунт, на весь этот процесс у вас уйдет секунд 20.

Заходим на сайт Gen-2 by Runway, вводим свои данные. После этого вас перенаправит на рабочую область — там нажимаем Gen-2: text-to-video. Все, вы готовы создавать свои первые нейровидео!

Gen-2 — платная нейросеть, но при регистрации вы получите 105 пробных секунд для генерации видео. Длина создаваемого видеоролика — 4 секунды, и это время не может быть изменено.

Если вы оформите подписку за $15 в месяц, вам станут доступны дополнительные функции: повышение качества видео (upscale) и удаление водяных знаков. Учтите, что с ежемесячной подпиской вы все равно получите те же 105 секунд. Если они кончатся, придется либо ждать следующего месяца, либо докупать секунды. Каждая дополнительная секунда будет стоит $0.05. Классические методы оплаты из России не принимаются.

Впрочем, можно просто создавать новые учетные записи и заново получать бесплатные секунды, чтобы не заморачиваться с подписками.

Нейросеть Gen-2 вышла в открытый доступ. Вот, что она умеет

На данный момент настройки минимальны. Справа от строки ввода текста есть возможность загрузить фотографию в качестве референса для создаваемого видео. Об этом поговорим чуть позже.

Внизу находится меню настроек, где также не так много опций. Вы можете самостоятельно задать вес видео и немного "сгладить" его. Функция upscale (улучшение качества) и удаление водяного знака доступны только при наличии подписки.

На сайте Runway есть короткое обучающее видео, но ничего нового мы оттуда не узнали. Промпты для этой нейросети составляются так же, как и для нейросетей, генерирующих изображения. Чем детальнее описание промпта, тем лучше результаты запроса.

Здесь стоит уделить особое внимание на описание движения камеры, угла обзора и перспективы.

Учтите, что вы не сможете создать уж слишком детальный промпт, так как ограничение составляет 320 символов. Кроме того, не получится задать длительность видео — оно всегда будет составлять 4 секунды.

Погнали на практике выяснять, какие промпты Gen-2 поймет лучше всего и способен ли он на что-то толковое

Добавим, что промпты лучше всего писать на английском языке. Давайте сначала попробуем что-нибудь простое: спящий лев — a sleeping lion

Ну, получился точно лев. Пока что это точно не кадр из National Geographic...

Давайте больше движения. Пусть девушка куда-нибудь идет — a lady walking somewhere

Несмотря на то, что их почему-то стало две — выглядит... круто. Особенно для такого простенького запроса. Чем-то напоминает старую добрую экранку :) И ключицы как детально прорисованы!

Посмотрим последний короткий промпт — a hot cup of tea. Тут даже кадры сменяются и появился намек на сюжетность:

Что ж, хорошо, давайте добавим деталей к предыдущим промптам и попробуем разнообразить их. Детализированные промпты позволяют экспериментировать с разными углами съёмки, камерами, объективами, местами и даже режиссёрами. Чтобы не придумывать всё с нуля самостоятельно, воспользуемся Prompt Silo — помощником-генератором промптов.

Наша улучшенная версия льва: a lion sleeping in grass, direct3d render, unreal engine render, wide shot, realistic, quentin tarantino film style

Сразу получается уже что-то более интересное! Хотя до "реалистик" еще пока далеко, конечно.

Тут немного изменили lady на little girl для разнообразия: illustration of a little girl walking around in a forest, in the style of otherworldly creatures,32k uhd, charming characters, dark green, luminescent installations, joyful celebration of nature, dreamworks animation style

Если Midjourney и другим похожим нейросетям еще нужна дополнительная практика в рисовании рук, то Gen-2 еще предстоит большая работа с прорисовкой лиц. Тем не менее, уже сейчас заметно, как он отлично передает движение персонажа — будто девочка исследует таинственный лес, при этом осторожно крадется.

Посмотрим, как изменится наша чашечка чая: a hot cup of tea, style of Pablo Picasso, wes anderson film style, cinematic lighting, superrealistic, low angle, dark aesthetic

Движения в кадре минимум, но выглядит очень атмосферно. Как будто бы кадр из старого фильма.

Теперь протетируем функцию загрузки фотографий, а заодно продолжим играться с промптами.

Сгенерировали этих забавных ребят в Unstability AI:

Промпт добавим вот такой: human talking to a robot, Sci-fi futuristic, Wide shots and close-ups, Slow zoom out, in style of netflix documentary

Не совсем то, что мы ожидали, однако любопытно, что человек с референса в целом похож на парня с нашего первого арта. Может с белым фоном и минимальным количеством деталей будет лучше? Пробуем анимировать нашу фирменную Хлебособаку!

А вот и промпт: dog made out of bread, disney style, blender render, octane render, unreal engine render, Panning from left to right

Ну, за референс он изображения брать старается, это видно. Вот у нашей Хлебособачки постарался сохранить узор на шерсти. Однако Gen-2 пока сложно справиться с созданием сложных и необычных изображений.

<i>Chinese style cartoon rabbit with an ancient style character image, a pair of big eyes, dressed in Chinese Hanfu, with full body front view, high – quality, silhouette light, and a Chinese style architectural background</i>

a seed becoming a flower, d blender render, soft smooth lighting,100mm lens, 4k UHD, isometric, tilt

Gen-2, конечно, пока выглядит очень сыро. Иногда получается создать что-то интересное, но в большинстве случаев выходит нечто странное. И слегка смахивает на галлюцинацию.

В принципе, нет смысла оформлять подписку на данный момент. Да, это все интересно, но пока нигде особо не применишь.

Но опять же, давайте вспомним как в прошлом году выглядел Midjourney и как сильно он эволюционировал за год:

И все-таки следить за такими обновлениями не только важно, но и чрезвычайно интересно. В мире нейросетей каждый день происходят новые и захватывающие события. Например, недавно парализованный парень с помощью нейросетевого имплантата заново научился ходить. А теперь вот нейросети способны создавать видео на основе текста.

Подписывайтесь на наш телеграм-канал: тараемся следить за всеми новостями в сфере ИИ, а еще устраиваем интерактивы и тестируем нейросети и промпты вместе с подписчиками.

Мы будем рады вашим отзывам и наблюдениям о Gen-2. Всегда готовы учиться вместе с вами :)

t.me

Нейросекта

Нейросеть Gen-2 вышла в открытый доступ. Вот, что она умеет

Регистрация: нужен ли VPN или зарубежный номер?

Знакомимся с интерфейсом

Составляем промпт (описание будущего видео)

Простой промпт без деталей

Усложняем промпты, добавляем детали

Загружаем изображения-референсы

Еще немного экспериментов

Подводим итог