5 особенностей Sora от OpenAI, о которых вы, вероятно, не знали
Sora, революционный видеогенератор ИИ от OpenAI, в последнее время набирает огромную популярность в мире ИИ благодаря своей способности создавать высококачественное видео из простых текстовых запросов.
Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.
Но возможности Sora простираются далеко за пределы создания видео из текстовых промптов. Вот пять примеров:
- Изменение стиля окружающей обстановки в видеороликах
- Генерация изображений
- Превращение изображений в видео
- Интерполяция двух видео
- Расширение существующих видеороликов
Давайте подробнее рассмотрим каждую из этих функций.
1. Sora может изменять стили и обстановку в видеороликах
Представьте, что вы берете современное видео и плавно превращаете его в сцену из 1920-х годов, с классическими автомобилями и старинными зданиями.
Посмотрите на этот пример: верхний видеоролик в качестве исходных данных и получившееся видео в нижней части с помощью следующего промпта:
Качество работы Sora можно назвать революционным! Это открывает умопомрачительные возможности. Вот несколько из них:
- Кинопроизводство. Значительно снижает стоимость за счет трансформации сцен под любую эпоху или стиль.
- Образование. Визуальное воссоздание исторических событий или периодов позволяет погрузиться в процесс обучения.
- Реклама. Позволяет создавать уникальный контент, размещая товары в различных обстановках.
2. Sora может генерировать изображения
Sora не ограничивается только созданием видео. Она также может генерировать изображения с разрешением до 2048 x 2048 пикселей.
Она работает путем расположения пятен гауссовского шума в пространственной сетке с временной протяженностью в один кадр.
Вот пример:
Теперь сравните результат Sora с изображением, сгенерированным DALL-E 3 с помощью того же промпта.
На мой взгляд, изображение, созданное Sora, выглядит лучше. Кажется, что он ярче передает магию северного сияния. Вы согласны?
3. Sora может превращать изображения в видео
Еще одна классная функция - преобразование изображения в видео. Пример ниже - исходное изображение, созданное с помощью Dall-E.
Разве не было бы невероятно, если бы Sora была интегрирована в ChatGPT Plus? Вы могли бы описать изображение искусственному интеллекту, сгенерировать его, а затем сразу же превратить в анимацию! Это было бы очень круто.
И еще, мы уже можем получить доступ к Sora? Не терпится увидеть волшебство с изображениями MidJourney.
4. Sora может интерполировать два видео
Что, если бы вы могли взять два совершенно разных видео - скажем, одно с шумной городской улицы, а другое со спокойного леса - и заставить Sora плавно соединить их вместе?
Именно это и делает интерполяция, и результаты получаются просто завораживающими. Потенциал для творческого редактирования видео и художественного выражения огромен.
5. Sora может увеличивать продолжительность существующего видео
Еще одна огромная особенность Sora - возможность продлевать видео.
Это дает потрясающую свободу действий для создателей контента и продюсеров фильмов.
Однако возможность так легко манипулировать видео также вызывает серьезные опасения по поводу возможного появления дипфейков и ставит новые вопросы, связанные с авторскими правами.
Прошло уже несколько дней с момента анонса Sora, а она до сих пор на слуху в сети. Команда Sora постоянно выкладывает новые видео на X, и все они поистине умопомрачительны.
Даже в первой версии ее возможности просто поражают воображение. Я могу только представить, на что Sora будет способна через несколько версий. Как обычно говорит доктор Кароли Жолнаи-Фехер:
Если начальная версия Sora уже настолько впечатляет, что даже страшно подумать, как эта технология может полностью изменить будущее создания видео.
Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.
Источник статьи на английском - здесь.
за последние пару дней эта сора везде без вазелина, я уже о ней знаю все что только можно
))). Значит, openai произвели пусть не революцию, но как минимум фурор ). Или вы так не считаете?
посмотрим что они произведут на старте, потому что многие выкатывали и ролики и примеры возможностей а на старте выходило капец...
Согласен. Главное - чтобы не получилось, как у гугла с bard и gemini ). Вы сравнивали их с чатгпт?
у что то вроде того, у runway к примеру то же есть впечатляющие видео, в стейбл видео дифьюжет можно добиться интересных результатов, но если оно действительно будет так работать это конечно будет интересно, другое дело за сколько все это будет доступно, я думаю подписка будет стоить не менее нескольких сотен долларов при таком качестве
Это смотря на что они ставку сделают - на использование максимальным количеством пользователей, или на использование в коммерческих целях. Но, думаю, им будет инетереснее большее количество юзеров, поэтому ценовую планку они задирать не будут.
Мне кажется, здесь пока больше рекламы, чем качества генерации. Да, получше, чем пика или ранвэй, но все равно до реального видео еще развиваться и развиваться.
Развиваться всегда есть куда. Главное - шаг или рывок уже сделан ).
Если генерируемые видео будут такого качества, как в их примерах, то конкурентов у Openai в генерации виео на самом деле нет - даже runway и pika недотягивают до этого уровня.
а стейбл видео дифьюжен?)) проблема в том что на стадии презентации вкатывают самое успешное, а чтобы достичь такого качество нужно сотни генераций, оно то конечно все впечатляет, но что будет на старте никто не знает.
Альтман в Х в прямом эфире принимал запросы пользователей на генерацию и постил, время генерации около часа
интересно, но то что сейчас выкладывают те которым дали доступ не всегда впечатляет, хотя конечно есть оптимисты которые безропотно верят в успех. Я слышал что даже некоторые киностудии замораживают свои проекты до выхода
Спасибо за информацию, я про это не знал.
Это да. Далеко за примером ходить не надо - известная корпорация уже лажанулась пару раз.
в том то и дело, те примеры которые предоставлены они конечно поражают, будем ждать, может действительно что то дельное выйдет, хотя я думаю что все это не к добру, сколько же людей потеряет работу
Полностью согласен. Видел даже видео-сравнение runway и sora - разница видна конкретная.
Видео с собакой, конечно, выглядит как реальное - мимика собаки очень хорошо сгенерирована.
Да, по сравнению с runway качество видео на голову выше.
А где Сору можно попробовать, из статьи непонятно.
Пока нигде, опенаи ссылку пока не выкладывало на доступ к нейронке.
А, я узнал эту собачку, это же она говорит: "Имя Ибрагим, вам о чем-нибудь говорит?"
Где говорит?
Ну что вы, это база, стыдно не знать!
))) Не встречал раньше такого мема.
На мой взгляд, это очень крутые видео, если учесть, что они сгенерированы нейронкой.
Я тоже так считаю.
Интересно, а можно ли будет использовать сгенерированные видео в коммерческих целях?
Пока, насколько я знаю, информации об этом нету.
Комментарий удален модератором
Пока это только релиз, посмотрим, что будет дальше ).
Миджорни лучше, конечно, генерирует изображения. Но зато связка МЖ+Сора будет +++
Согласен. При адекватных ценах многие сменят pika или runway на sora.
Может, я не понимаю замысла маркетологов, но зачем столько шума, если инструмент еще не доступен?
Видимо, это специфика продвижения товаров и сервисов в США. А шума много из-за того, что похожего по уровню еще пока не было.
Комментарий недоступен
Я создал не шум, а опубликовал обзор. Без рефок, обрати внимание.
Комментарий недоступен
Альтман в прямом эфире генерировал видео по промптам, которые присылали его подписчики).
Комментарий недоступен
Я шумлю обо всем, о чем хочу, если это не запрещено ).
Пока не ясна себестоимость этого процесса в пересчёте на генерацию одной секунды видео.
А учитывая опыт других решений по генерации изображений, когда для получения нужного результата нужно выполнить десятки, а то и сотни генераций - и это на один кадр, то сколько их потребуется для генерации видео?
Доподлинно известно, что себестоимость одного запроса в chatgpt-4 в несколько раз выше чем в chatgpt-3.5.
Поэтому Sora может оказаться игрушкой для богатых, финансово недоступной большинству людей.
Вполне может быть. Либо только для коммерческого использования.
Как Sora может набирать популярность в мире ИИ, если инструмент даже не находится в закрытом бета-тесте, доступ до него есть у избранных единиц?
"Взбудоражил СМИ", "У всех на слуху" - вот более честные формулировки.
Её ещё не представили, а она уже популярна. Так бывает).
По одному запросу нечестно оценивать.
Зачастую достаточно одного промпта.
Отличная аргументация!
Вот вам мой ответ: зачастую недостаточно одного промпта.