Новая эра искусственного интеллекта: GPT-4o от OpenAI
13 мая тысячи энтузиастов AI с нетерпением следили за долгожданной прямой трансляцией OpenAI , на которой компания представила GPT-4o , новую модель, которая умнее, дешевле, быстрее, лучше кодирует, мультимодальна и обладает впечатляющей скоростью!
Что такое GPT-4o?
Прежде всего, "o" в GPT-4o означает "omni", что означает поддержку мультимодальности модели как для входных, так и для выходных данных.
GPT-4o может обрабатывать и генерировать текст, аудио и изображения в режиме реального времени. Это значительный шаг на пути к более естественному взаимодействию человека и компьютера: модель может принимать любые комбинации текстовых, аудио- и графических данных и генерировать соответствующие выходные данные.
Пожалуй, самым заметным достижением GPT-4o является то, что она практически в режиме реального времени отвечает на запросы голосового помощника.
Еще одним самым заметным достижением GPT-4o является его работа в качестве голосового помощника практически в режиме реального времени. Он может реагировать на входные звуковые данные в среднем за 232 миллисекунды, что сопоставимо с временем реакции человека при разговоре.
По словам компании , модель будет запущена в течение следующих нескольких недель и будет бесплатной для всех пользователей как через приложение GPT, так и через веб-интерфейс. Пользователи, которые подпишутся на платные уровни OpenAI, стоимость которых начинается от 20 долларов в месяц, смогут делать больше запросов.
Что нового в GPT-4o?
1. Ответы в реальном времени
Когда вы общаетесь с GPT-4o, создается ощущение, что вы разговариваете с реальным человеком. Она может подстроиться под ваш тон, пошутить и даже спеть в унисон.
Благодаря такому естественному и быстрому общению чатбот становится намного интереснее и увлекательнее. Но как OpenAI удалось добиться такого результата?
До появления GPT-4o голосовой режим ChatGPT использовал трехступенчатый процесс: звук транскрибировался в текст, затем обрабатывался GPT-3.5 или GPT-4 и, наконец, снова преобразовывался в звук. Это приводило к замедлению времени отклика (2,8 секунды для GPT-3.5 и 5,4 секунды для GPT-4) и потере такой информации, как тон и фоновый шум.
В GPT-4o используется единая ИИ-модель, обученная обрабатывать текст, изображения и аудио одновременно. Такая непрерывная обработка позволяет GPT-4o отвечать гораздо быстрее и естественнее, улавливая нюансы, которые предыдущие модели упускали.
2. Улучшенное мышление
Помимо впечатляющей скорости, GPT-4o также достигла высоких результатов в рассуждениях. Она показала рекордный результат в 88,7 % в бенчмарке COT MMLU, проверяющем общие знания, и 87,2 % в традиционном бенчмарке No-CoT MMLU с 5 попытками - еще один рекорд.
GPT-4o также продемонстрировала значительные успехи как в математических рассуждениях, так и в визуальном восприятии.
В бенчмарке M3Exam, который оценивает производительность при решении стандартных тестовых вопросов из разных стран, часто включающих диаграммы и рисунки, GPT-4o превзошел GPT-4 на всех тестируемых языках.
Что касается чистого видения, то GPT-4o показал самые высокие результаты в нескольких ключевых бенчмарках, включая MMMU, MathVista и ChartQA, причем в режиме 0-shot.
3. GPT-4o можно использовать бесплатно
Одним из самых удивительных и восхищающих новой модели GPT-4o является то, что она будет бесплатной для использования. Это очень важно, учитывая, что бесплатная версия ChatGPT с моделью GPT-3.5 привлекла 100 миллионов пользователей. Если GPT-4o станет еще умнее, то потенциально она сможет привлечь еще 100 миллионов пользователей или даже больше.
Пользователи Free-уровня по умолчанию будут переведены на GPT-4o с ограничением на количество сообщений, которые они могут отправить с помощью GPT-4o, которое будет зависеть от текущего использования и спроса. При недоступности пользователи бесплатного уровня будут переведены обратно на GPT-3.5.
Честно говоря, довольно интригующе, как OpenAI предлагает эту новую и улучшенную модель бесплатно, не теряя при этом значительной суммы денег, особенно учитывая огромные вычислительные мощности, необходимые для работы этих языковых моделей.
GPT-4 Turbo в сравнении с GPT-4o
Для лучшего понимания, вот как GPT-4o сравнивается с GPT-4 turbo. GPT-4o обладает тем же высоким интеллектом, но быстрее, дешевле и имеет более высокие ограничения по скорости, чем GPT-4 Turbo:
- Цена. GPT-4o на 50% дешевле, чем GPT-4 Turbo, и составляет $5 за миллион входных токенов и $15 за миллион выходных токенов).
- Лимиты. Лимиты скорости GPT-4o в 5 раз выше, чем у GPT-4 Turbo - до 10 миллионов токенов в минуту.
- Скорость. GPT-4o в 2 раза быстрее GPT-4 Turbo.
- Видение. Возможности зрения GPT-4o превосходят GPT-4 Turbo в тестах, связанных с возможностями видения.
- Многоязычность. GPT-4o имеет улучшенную поддержку неанглийских языков по сравнению с GPT-4 Turbo.
GPT-4o в настоящее время имеет контекстное окно 128k символов.
Что в итоге?
В целом, это была впечатляющая демо-версия GPT-4o, особенно с учетом того, что она бесплатна в использовании и имеет впечатляюще быстрый голосовой ответ. Вопрос теперь в том, привлечет ли это больше пользователей? Это несомненно да. Новую модель можно использовать бесплатно, и голосовые ответы в реальном времени определенно заслуживают внимания.
Но стоит ли оно обновления в 20 долларов? Я не могу сказать, что оно того стоит, потому что мне еще предстоит провести дополнительные практические тесты модели и посмотреть, действительно ли она лучше, чем Claude Opus. Кроме того, поскольку Google потенциально выпустит несколько крупных обновлений для Gemini завтра во время Google IO, ажиотаж вокруг GPT-4o может быть недолгим.
______________
Источник статьи на английском - здесь
______________
Продолжение следует...
Больше о нейронках в моем новом телеграм-канале посвященному творчеству с помощью нейросетей ⬇
Генерирую в Midjourney, делюсь советами, вдохновляющими идеями и новостями о классных нейронках 👾