Лишь десятая часть генераций была удачной. Честный обзор на Sora 2 от OpenAI

Вчерашний анонс Sora 2 от OpenAI наделал много шума, и я бросился добывать инвайт, чтобы попробовать одним из первых. За полдня успел сделать 200 генераций и теперь готов рассказать, что сейчас из себя представляет Sora 2: почему она одновременно восхищает и выводит из себя.

Всем привет! Меня зовут Борис, делюсь рабочими промптами и гайдами на VC и в своем Телеграм-канале.

Вместо полноценного релиза OpenAI устроила квест. Чтобы получить доступ, нужно найти инвайт-код:

Лишь десятая часть генераций была удачной. Честный обзор на Sora 2 от OpenAI

Сразу после анонса я потратил около часа, чтобы найти первый заветный код. Позже на Reddit и в профильных телеграм-чатах появились целые ветки, где люди делились инвайтами, но это все равно превратилось в соревнование "кто успел, тот и съел".

Логика вирусная: получаешь доступ — можешь пригласить еще четырех. Маркетинговый ход понятен, но для пользователя это не самый приятный опыт.

Первое, что бросается в глаза — качество картинки. Видео генерируется в разрешении 640x320. По современным меркам, это очень мало. Вдобавок на каждом ролике присутствуют целых три динамических водяных знака.

Пример с водяными знаками и низким качеством.

Из-за этого сейчас Sora 2 ощущается скорее как хайповая игрушка, а не рабочий инструмент. Чтобы получить достойный результат для публикации, приходится пропускать видео через сторонние апскейлеры и сервисы для удаления вотермарок (ссылку на них можете найти в моем ТГ в этом посте).

Минус 3. Проблема 10-секундного лимита

Формально ролик длится 10 секунд, но это не мягкое завершение сцены. Ровно на 10-й секунде происходит резкий «кат». Звук и видео просто обрываются на полуслове, на полудвижении. Почти каждая генерация страдает от этого:

Обратите внимание на конец 10-секундного ролика (он обрезан, и так почти всегда)

Надеюсь, это один из первых багов, который поправят.

Здесь OpenAI перестраховалась по полной. Генерировать известных личностей нельзя:

Использовать фотографии реальных людей нельзя:

Генерировать детей нельзя. Упоминать известные места — тоже часто нельзя. В целом "запретных генераций" больше, чем обычных.

Складывается ощущение, что нейросеть триггерится на любые имена собственные и отказывает в генерации.

По факту, самые простые и рабочие сценарии сейчас — это заставить персонажа произносить какой-то текст, анимировать котиков или мультяшек. Именно поэтому интернет наводнили аниме-ролики из Sora 2.

Единственный способ «вставить» свое лицо — функция Cameo, но она пока доступна только в США и на iOS (о ней расскажу отдельно, там тоже есть свои нюансы).

Так зачем я продолжал есть кактус и потратил столько времени? Потому что за всеми этими ограничениями скрывается самый крутой и точный генератор видео на текущий день.

Плюс 1. Физика и движения

Движения, танцы, взаимодействие объектов — всё выглядит невероятно плавно и реалистично. Никаких «сломанных» суставов или странной анимации, чем грешили предыдущие модели. Sora 2 действительно понимает физику мира, и с этим трудно спорить.

Можно не расписывать сценарий на 10 абзацев. Достаточно написать простую фразу вроде «русский мем», и встроенный в нейронку агент сам додумает и расширит идею в полноценный сценарий, а затем сгенерирует по нему видео. Работа с русским языком — на высочайшем уровне.

Пример генерации по запросу "русский мем"

Пример генерации по запросу "оживший русский мем"

Я пошел ещё дальше и попросил сгенерировать рекламный ролик для моего Телеграм-канала, взяв информацию из этого скриншота. Получилось вполне неплохо:

Это главный вау-эффек» и то, чего пока нет ни у кого. В рамках одной 10-секундной генерации Sora 2 может показать несколько разных кадров: общий план, крупный план, вид сбоку. При этом локация и персонажи полностью сохраняют свою целостность. Ощущение, будто над роликом поработал монтажёр. Только ради этого стоит попробовать.

Полноценный обзор "товара из алика"

Плюс 4. Неожиданная щедрость

При всех минусах, OpenAI дает возможность генерировать много. Моих трех аккаунтов хватило на 200 генераций за день. Учитывая, сколько стоит одна попытка у конкурентов вроде Veo 3 или Kling, это невероятно щедро. Остановиться очень сложно.

Sora 2 в её текущем виде — это скорее масштабное технологическое демо, завернутое в вирусную маркетинговую оболочку. Из-за низкого качества, вотермарок и жесткой цензуры ею сложно пользоваться для серьезных задач.

Но ядро технологии (физика, режиссура, понимание языка) опережает всё, что мы видели до этого. Я с огромным нетерпением жду полноценного релиза. Когда уберут эти раздражающие ограничения, поднимут разрешение и уберут вотермарки, вот тогда и начнется настоящая революция.

Продолжаю следить за новостями и делиться фишками по Sora в моем Телеграм-канале. Там же показываю и другие примеры из мира нейросетей. Подписывайтесь!

Лишь десятая часть генераций была удачной. Честный обзор на Sora 2 от OpenAI

Часть 1. То, что меня бесит в Sora 2

Минус 1. Погоня за инвайтами

Минус 2. Технические нюансы (вотермарки и низкое разрешение)

Минус 4. Цензура, которая (пока) убивает креатив

Часть 2. То, почему я все равно в восторге

Плюс 2. Понимание с полуслова (даже на русском)

Плюс 3. Смена планов и ракурсов

Итог