Sora от OpenAI — это «GPT-1 видео» с планами по масштабированию и раскрытию новых возможностей искусственного интеллекта
Модель Sora AI от OpenAI способна генерировать минутные видеоролики впечатляющего качества. В презентации разработчики сравнивают его с GPT-1, предшественником современных языковых моделей.
OpenAI рассматривает Sora как основу для лучшего понимания и моделирования реального мира — решающий шаг на пути к AGI. В презентации в AGI House разработчики Sora Тим Брукс и Билл Пиблз назвали модель «GPT-1 видео» — отсылка к первой современной языковой модели Transformer GPT 2018 года. Видео загрузил ютубер Уэс Рот.
Как и GPT-1, Sora представляет собой фундаментальное исследование, но с потенциалом создания новых инновационных приложений. В случае с GPT его преемники показали, на что способны: от чат-ботов до помощников по написанию кода и обобщения текста. OpenAI теперь ожидает от Sora чего-то подобного в области генерации и анализа видео: «Мы думаем, что очень скоро эта технология станет намного лучше».
OpenAI ожидает увидеть новые возможности в большом масштабе
OpenAI рассматривает Sora как демонстрацию того, что генеративные модели ИИ для видео масштабируемы и что новые возможности возникают в результате дальнейшего масштабирования. В примерах видеороликов Сора уже демонстрирует базовое понимание физического взаимодействия и трехмерной геометрии реального мира. Люди и животные почти естественно перемещаются по сгенерированным мирам, объекты сохраняются, несмотря на поворот камеры, а поверхности отбрасывают реалистичные отражения.
Разработчики полагают, что эти возможности могут быть достигнуты с помощью более крупных моделей, подобно тому, как модели генеративного языка достигли естественной согласованности только за счет масштабирования.
В долгосрочной перспективе OpenAI надеется лучше понять, как люди, животные и объекты взаимодействуют в нашем мире посредством мультимодального моделирования всех сред с помощью Sora и подобных моделей. Это было бы решающим шагом на пути к общему искусственному интеллекту, который сможет полностью моделировать и понимать реальный мир. По мнению команды, существует достаточно данных и методов, чтобы лучше использовать их для достижения AGI.
Руководитель ИИ Меты не верит, что Сора добьется успеха
С другой стороны, руководитель отдела искусственного интеллекта Meta Ян ЛеКун не считает Sora подходящим инструментом для предсказания мира путем генерации пикселей. Он описывает этот подход как расточительный и обреченный на провал . ЛеКан утверждает, что генеративные модели сенсорной информации потерпят неудачу, потому что слишком сложно справиться с неопределенностью прогнозирования непрерывной многомерной сенсорной информации. Он считает, что генеративный ИИ хорошо работает с текстом, поскольку текст дискретен и имеет конечное число символов, что позволяет легче справляться с неопределенностью.
V-JEPA фокусируется на прогнозировании в более широком концептуальном пространстве и позволяет адаптироваться к различным задачам за счет добавления небольшого слоя, специфичного для конкретной задачи, а не переобучения всей модели.
В настоящее время Sora доступна избранной группе участников Red Team для оценки ущерба и рисков, а также художникам, дизайнерам и кинематографистам, которые хотят оставить отзыв , чтобы улучшить ее полезность для творческих профессионалов. Выпуск «Соры» запланирован на конец этого года, но это может произойти через несколько месяцев, поскольку на сроки могут повлиять выборы в США в ноябре.
Краткое содержание
- Sora от OpenAI может генерировать высококачественное видео в течение нескольких минут.
- В ходе беседы разработчики теперь сравнивают его с GPT-1, первой современной языковой моделью, которая заложила основу для таких приложений, как чат-боты и помощники по программированию.
- OpenAI видит в Sora потенциал лучшего понимания реального мира, изучая, как взаимодействуют люди, животные и объекты по мере дальнейшего масштабирования. Это было бы важным шагом на пути к искусственному общему интеллекту.
ps. Комментируйте и лайкайте, пожалуйста! Это помогает продвижению статьи.
Ну и как положено, канал тг))) Канал и чатик
Там в закрепленном боты KolerskyAi для доступа в Chat GPT+4 и Dalle-3, Midjourney без VPN и другие нейросети.
все уже ждут ее выхода, выглядит очень эпично все это
Ну она видимо будет работать очень медленно и дорогая будет+ в примерах же идеальные варианты генераций, думаю, чтоб их сделать они не один раз попробовали разные запросы
есть предположение что стандартная подписка будет стоить скорее всего 50 бакинских но с ограничением по генерациям, либо специальная подписка от 500 целеных для корпоративного использования