GPT-4omni даже поет! Что еще умеет новая модель?

Вчера вечером OpenAI в 20:00 по московскому времени в прямом эфире представили свою крутую новинку - GPT-4o. Эта модель - просто космос! Можно болтать с ней голосом или через видео, и всё это без малейшей задержки. И знаете что? Она ещё и чувствует настроение, шутит, отвечает так, как будто живая, переводит на лету и даже поёт!

И самое прикольное, что при всех этих фишках она обходится дешевле, чем старая добрая GPT-4 Turbo. Ну и кто тут главный? Правильно, GPT-4o - первая настоящая мультимодальная звезда от OpenAI! Как они это сделали? Хм, вот это вопрос!

GPT-4omni даже поет! Что еще умеет новая модель?

Что умеет GPT-4o?

GPT-4o представляет собой не просто платформу для диалогов, но и инструмент для перевода. Создатели модели значительно расширили её функциональность для работы на языках, отличных от английского, добавив поддержку свыше 50 языков. Более того, они совершенствовали память системы, благодаря чему она теперь способна сохранять информацию о всех взаимодействиях с пользователем, углубляя знания о нём. Довольно тревожная перспектива, не так ли?

Относительно английского языка и программирования, в официальном блоге указано, что GPT-4o дотягивает до уровня GPT-4 Turbo.

Качество ответов, предоставляемых загадочными моделями, ошеломило пользователей. Они с легкостью могли разработать игры, демонстрируя возможность создания точных копий Flappy Birds, 3D-стрелялок и аркадных игр всего за несколько минут.

Теперь стало ясно, что за всем этим стояла скрытая версия GPT-4o. В текущих соревнованиях на платформе Chatbot Arena она опережает своих соперников, показывая превосходство на 57 ELO в общих языковых заданиях и на 100 ELO в программировании. Это действительно впечатляющие достижения. Более того, модель для формирования ответов опирается не только на собственные данные, но и на информацию, полученную из сети Интернет.

Почему GPT-4o?

Буква 'o' в названии GPT-4o означает "omni", то есть "универсальная". В ранней версии тоже можно было отсылать боту картинки и использовать голосовой режим. Задержка ответа была3 сек. Теперь модель отвечает со скоростью человека.

GPT-4o представляет собой инновационную модель, обученную на трех различных типах данных: тексте, аудио и изображениях. Эти три модальности теперь интегрированы и функционируют совместно, что делает GPT-4o первой истинно мультимодальной моделью в арсенале компании.

На этот раз удалось уменьшить количество необходимых костылей благодаря внедрению нового мультиязычного токенизатора, который эффективнее обрабатывает входные данные. В результате, для обработки некоторых языков теперь нужно в 3-4 раза меньше токенов, что делает обработку запросов более экономичной. К примеру, стоимость обработки запросов на русском языке снизилась в среднем в 3.5 раза.

Еще больше интересных новостей читай на канале

55
Начать дискуссию