Обзор последних новинок в мире нейросетей: GPT-4o, Veo, Imagen3, Sora, Grok

Развитие нейросетей постоянно набирает обороты. Если раньше заметные вехи прогресса в сфере ИИ можно было измерять годами, то сейчас каждые несколько месяцев технологические гиганты и стартапы преподносят нам новые революционные продукты. Давайте рассмотрим несколько анонсированных недавно нейросетей с большим потенциалом, которые будут доступны уже в ближайшем будущем.

Компания Илона Маска xAI выпустила новую языковую модель Grok-1 с открытым исходным кодом. Что из себя представляет Grok? Это самая большая на данный момент модель с 314 миллиардами параметров, что для сравнения в два раза больше, чем у GPT-3.

Для обычного пользователя у Grok есть две важных особенности:

-Во-первых он имеет доступ ко всем постам в X в реальном времени, поэтому без труда сможет дать сводку последних новостей.

-Во-вторых присутствуют два режима использования: «базовый” и »веселый”. В веселом режиме нейросеть изменит тон общения на шутливый и не будет стесняться в выражениях, но может начать давать недостоверную информацию, путаться в датах и перевирать факты.

Попробовать Grok можно уже сейчас. На текущий момент он доступен только ограниченному кругу пользователей социальной сети X, у которых есть подписка Premium+ стоимостью 16 долларов. Те, кто уже успел испытать чат-бота отмечают, что он отличается низким уровнем цензуры и хорошим чувством юмора. Например Grok может использовать обсценную лексику, рассуждать о политике, поддерживать теории заговора.

Это нейросеть для генерации видео от компании OpenAI, создателей Chat GPT и DALL-E 3. Она способна создавать как реалистичные, так и анимационные ролики длиной до минуты на основе текстовых запросов и статичных изображений. Также возможно расширять существующие видео и заполнять недостающие кадры. Демонстрационные ролики, представленные публике поражают качеством и консисетностью (постоянством) картинки.

Но не все так идеально. Нейросеть допускает ошибки. Например она может путать логику и физику взаимодействия объектов, путать в запросах лево и право, не следовать указанным движениям камеры.

Сейчас Sora не доступна для широкого круга пользователей. Она проходит закрытое тестирование, к которому привлекли художников, дизайнеров и режиссеров. Когда нейросеть выпустят в общий доступ неизвестно.

Это нейросеть для генерации видео от google. Она должна составить конкуренцию Sora. Veo умеет создавать видео в разных стилях, таких как реализм, анимация, киберпанк, нуар. Также её выгодно отличают заявленные характеристики видео: разрешение 1080p и длина более минуты.

В пресс-релизе сказано, что Veo обладает продвинутым пониманием естественного языка, что позволяет ей понимать такие термины, как таймлапс и съемка пейзажа с воздуха. Также пользовательский запрос может быть дополнен изображениями или видео.

На данный момент о Veo мало что известно. Несмотря на анонс проект еще находится на стадии закрытого тестирования. Google обещают выпустить ее позже в этом году.

OpenAI представили новую версию самой известной нейросети chat gpt. Ее главное отличие от предыдущей версии заключается в том, что теперь генерацией текста, аудио и изображений будет заниматься одна нейросетевая модель. Такой подход называют переизобретением мультимодальности. Это должно положительно сказаться на времени и качестве ответа.

Во время презентации основной упор сделали на голосовое взаимодействие с GPT-4o и показали возможные сценарии его использования. Например помощь в изучении языков, перевод в реальном времени, неформальное общение. Новая модель даже научилась петь акапелла.

Из интересного, также обещают улучшенное взаимодействие с изображениями.

Возможность создавать 3д объекты.
Продвинутый анализ графиков, таблиц, рукописного текста.
Возможность запоминать персонажей.

В общем доступе обновленный GPT появится уже через несколько недель.

UPD: За время написания статьи GPT-4o стал доступен всем обладателям платной подписки.

Это еще один проект представленный google. Новая генеративная модель для создания изображений. По словам представителей компании этот инструмент отличается невероятным уровнем детализации, а также меньшим количеством визуальным артефактов в сравнении с конкурентами.

В Imagen3 будет внедрена технология SynthID, которая наносит на изображение невидимые человеческому глазу криптографические знаки. Они помогут определить, что изображение сгенерировано нейросетью. Это сделано для борьбы с дипфейками.

Вот еще некоторые особенности Imagen3:

Широкий выбор стилей (реализм, картина маслом и т. д.).
Понимание “естественного языка”.
Выбор угла камеры и композиции.
Улучшенная работа с изображением текста.

Дата выхода пока неизвестна. Сейчас проект на стадии закрытого тестирования.

Обзор последних новинок в мире нейросетей: GPT-4o, Veo, Imagen3, Sora, Grok

Что смогут предложить в будущем нейросети, которые находятся на стадии разработки? За какими проектами нужно начать следить уже сейчас?

Grok

Sora

Veo

GPT-4o

Imagen3