Обзор последних новинок в мире нейросетей: GPT-4o, Veo, Imagen3, Sora, Grok
Что смогут предложить в будущем нейросети, которые находятся на стадии разработки? За какими проектами нужно начать следить уже сейчас?
Развитие нейросетей постоянно набирает обороты. Если раньше заметные вехи прогресса в сфере ИИ можно было измерять годами, то сейчас каждые несколько месяцев технологические гиганты и стартапы преподносят нам новые революционные продукты. Давайте рассмотрим несколько анонсированных недавно нейросетей с большим потенциалом, которые будут доступны уже в ближайшем будущем.
Grok
Компания Илона Маска xAI выпустила новую языковую модель Grok-1 с открытым исходным кодом. Что из себя представляет Grok? Это самая большая на данный момент модель с 314 миллиардами параметров, что для сравнения в два раза больше, чем у GPT-3.
Для обычного пользователя у Grok есть две важных особенности:
-Во-первых он имеет доступ ко всем постам в X в реальном времени, поэтому без труда сможет дать сводку последних новостей.
-Во-вторых присутствуют два режима использования: «базовый” и »веселый”. В веселом режиме нейросеть изменит тон общения на шутливый и не будет стесняться в выражениях, но может начать давать недостоверную информацию, путаться в датах и перевирать факты.
Попробовать Grok можно уже сейчас. На текущий момент он доступен только ограниченному кругу пользователей социальной сети X, у которых есть подписка Premium+ стоимостью 16 долларов. Те, кто уже успел испытать чат-бота отмечают, что он отличается низким уровнем цензуры и хорошим чувством юмора. Например Grok может использовать обсценную лексику, рассуждать о политике, поддерживать теории заговора.
Sora
Это нейросеть для генерации видео от компании OpenAI, создателей Chat GPT и DALL-E 3. Она способна создавать как реалистичные, так и анимационные ролики длиной до минуты на основе текстовых запросов и статичных изображений. Также возможно расширять существующие видео и заполнять недостающие кадры. Демонстрационные ролики, представленные публике поражают качеством и консисетностью (постоянством) картинки.
Но не все так идеально. Нейросеть допускает ошибки. Например она может путать логику и физику взаимодействия объектов, путать в запросах лево и право, не следовать указанным движениям камеры.
Сейчас Sora не доступна для широкого круга пользователей. Она проходит закрытое тестирование, к которому привлекли художников, дизайнеров и режиссеров. Когда нейросеть выпустят в общий доступ неизвестно.
Veo
Это нейросеть для генерации видео от google. Она должна составить конкуренцию Sora. Veo умеет создавать видео в разных стилях, таких как реализм, анимация, киберпанк, нуар. Также её выгодно отличают заявленные характеристики видео: разрешение 1080p и длина более минуты.
В пресс-релизе сказано, что Veo обладает продвинутым пониманием естественного языка, что позволяет ей понимать такие термины, как таймлапс и съемка пейзажа с воздуха. Также пользовательский запрос может быть дополнен изображениями или видео.
На данный момент о Veo мало что известно. Несмотря на анонс проект еще находится на стадии закрытого тестирования. Google обещают выпустить ее позже в этом году.
GPT-4o
OpenAI представили новую версию самой известной нейросети chat gpt. Ее главное отличие от предыдущей версии заключается в том, что теперь генерацией текста, аудио и изображений будет заниматься одна нейросетевая модель. Такой подход называют переизобретением мультимодальности. Это должно положительно сказаться на времени и качестве ответа.
Во время презентации основной упор сделали на голосовое взаимодействие с GPT-4o и показали возможные сценарии его использования. Например помощь в изучении языков, перевод в реальном времени, неформальное общение. Новая модель даже научилась петь акапелла.
Из интересного, также обещают улучшенное взаимодействие с изображениями.
- Возможность создавать 3д объекты.
- Продвинутый анализ графиков, таблиц, рукописного текста.
- Возможность запоминать персонажей.
В общем доступе обновленный GPT появится уже через несколько недель.
UPD: За время написания статьи GPT-4o стал доступен всем обладателям платной подписки.
Imagen3
Это еще один проект представленный google. Новая генеративная модель для создания изображений. По словам представителей компании этот инструмент отличается невероятным уровнем детализации, а также меньшим количеством визуальным артефактов в сравнении с конкурентами.
В Imagen3 будет внедрена технология SynthID, которая наносит на изображение невидимые человеческому глазу криптографические знаки. Они помогут определить, что изображение сгенерировано нейросетью. Это сделано для борьбы с дипфейками.
Вот еще некоторые особенности Imagen3:
- Широкий выбор стилей (реализм, картина маслом и т. д.).
- Понимание “естественного языка”.
- Выбор угла камеры и композиции.
- Улучшенная работа с изображением текста.
Дата выхода пока неизвестна. Сейчас проект на стадии закрытого тестирования.