Новая модель GPT-4o от OpenAI умеет петь и отвечать в режиме реального времени

Новая модель GPT-4o от OpenAI умеет петь и отвечать в режиме реального времени

Сегодня тысячи любителей ИИ с нетерпением наблюдали за долгожданным мероприятием OpenAI, на котором компания представила свои последние революционные достижения в области ChatGPT. В то время как в воздухе витали догадки о возможности появления революционной функции поиска, способной бросить вызов доминированию Google, или о появлении долгожданной модели GPT-5, фактический анонс прошел в несколько ином, но не менее захватывающем направлении.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

OpenAI представила GPT-4o, новую модель, которая умнее, дешевле, быстрее, лучше в кодировании, мультимодальнее и умопомрачительно быстра.

Новая модель GPT-4o от OpenAI умеет петь и отвечать в режиме реального времени

Для OpenAI было разумным решением продемонстрировать новые функции в прямом эфире на скорости 1х, а не на заранее записанном видео (в отличие от Google).

ChatGPT на русском - бесплатный бот, который работает в Телеграм без ВПН.

С помощью бота вы можете пользоваться ChatGPT на русском языке. Здесь все как обычно - пишете запрос, и быстро получаете ответ. Бот доступен в бесплатной версии.

Итак, что именно представляет собой GPT-4o?

Прежде всего, "o" в GPT-4o означает "omni", что означает поддержку мультимодальности модели как для входных, так и для выходных данных.

GPT-4o может обрабатывать и генерировать текст, аудио и изображения в режиме реального времени. Это значительный шаг на пути к более естественному взаимодействию человека и компьютера: модель может принимать любые комбинации текстовых, аудио- и графических данных и генерировать соответствующие выходные данные.

Пожалуй, самым заметным достижением GPT-4o является то, что она практически в режиме реального времени отвечает на запросы голосового помощника.

Еще одним самым заметным достижением GPT-4o является его работа в качестве голосового помощника практически в режиме реального времени. Он может реагировать на входные звуковые данные в среднем за 232 миллисекунды, что сопоставимо с временем реакции человека при разговоре.

Такое молниеносное время отклика в сочетании со способностью GPT-4 Turbo работать с английским текстом и кодом, демонстрируя при этом значительные улучшения в неанглийских языках, делает GPT-4o переломным событием в мире разговорного ИИ.

И что самое приятное? API значительно быстрее и на 50 % дешевле.

Что нового в GPT-4o?

Вот список новых возможностей GPT-4o.

1. Ответы в реальном времени

Когда вы общаетесь с GPT-4o, создается ощущение, что вы разговариваете с реальным человеком. Она может подстроиться под ваш тон, пошутить и даже спеть в унисон.

Новая модель GPT-4o от OpenAI умеет петь и отвечать в режиме реального времени

Благодаря такому естественному и быстрому общению чатбот становится намного интереснее и увлекательнее. Но как OpenAI удалось добиться такого результата?

До появления GPT-4o голосовой режим ChatGPT использовал трехступенчатый процесс: звук транскрибировался в текст, затем обрабатывался GPT-3.5 или GPT-4 и, наконец, снова преобразовывался в звук. Это приводило к замедлению времени отклика (2,8 секунды для GPT-3.5 и 5,4 секунды для GPT-4) и потере такой информации, как тон и фоновый шум.

В GPT-4o используется единая ИИ-модель, обученная обрабатывать текст, изображения и аудио одновременно. Такая непрерывная обработка позволяет GPT-4o отвечать гораздо быстрее и естественнее, улавливая нюансы, которые предыдущие модели упускали.

2. Улучшенное мышление

Помимо впечатляющей скорости, GPT-4o также достигла высоких результатов в рассуждениях. Она показала рекордный результат в 88,7 % в бенчмарке COT MMLU, проверяющем общие знания, и 87,2 % в традиционном бенчмарке No-CoT MMLU с 5 попытками - еще один рекорд.

Новая модель GPT-4o от OpenAI умеет петь и отвечать в режиме реального времени

Однако стоит отметить, что другие модели ИИ, такие как Llama3 400b, все еще находятся в стадии обучения и в будущем могут превзойти GPT-4o.

GPT-4o также продемонстрировала значительные успехи как в математических рассуждениях, так и в визуальном восприятии.

Новая модель GPT-4o от OpenAI умеет петь и отвечать в режиме реального времени
Новая модель GPT-4o от OpenAI умеет петь и отвечать в режиме реального времени

В бенчмарке M3Exam, который оценивает производительность при решении стандартных тестовых вопросов из разных стран, часто включающих диаграммы и рисунки, GPT-4o превзошел GPT-4 на всех тестируемых языках.

Что касается чистого видения, то GPT-4o показал самые высокие результаты в нескольких ключевых бенчмарках, включая MMMU, MathVista и ChartQA, причем в режиме 0-shot.

Перейдите в блог с анонсами, чтобы ознакомиться с некоторыми примерами, демонстрирующими возможности GPT-4o.

Новая модель GPT-4o от OpenAI умеет петь и отвечать в режиме реального времени

3. GPT-4o можно использовать бесплатно

Одним из самых удивительных и захватывающих аспектов GPT-4o является то, что она будет бесплатной для использования. Это очень важно, учитывая, что бесплатная версия ChatGPT с моделью GPT-3.5 привлекла 100 миллионов пользователей. Если GPT-4o станет еще умнее, то потенциально она сможет привлечь еще 100 миллионов пользователей или даже больше.

Пользователи Free-уровня по умолчанию будут переведены на GPT-4o с ограничением на количество сообщений, которые они могут отправить с помощью GPT-4o, которое будет зависеть от текущего использования и спроса. При недоступности пользователи бесплатного уровня будут переведены обратно на GPT-3.5. - OpenAI

Честно говоря, довольно интригующе, как OpenAI предлагает эту новую и улучшенную модель бесплатно, не теряя при этом значительной суммы денег, особенно учитывая огромные вычислительные мощности, необходимые для работы этих языковых моделей.

Вот несколько мыслей о том, почему они сделали ее бесплатной:

  1. Возможно, им не хватает данных для обучения из интернета, а данные для обучения пользовательских ИИ - лучший источник. Бесплатный доступ к новой модели может позволить им получить гораздо более качественные данные для использования.
  2. Возможно, их последнее партнерство с NVIDIA дало им толчок в плане вычислительной мощности, что позволило им запускать эти модели более эффективно и с меньшими затратами.
  3. Возможно, они пытаются вернуть клиентов, которые отказались от ChatGPT и используют лучшие альтернативы, такие как Anthropic's Claude.

GPT-4 Turbo в сравнении с GPT-4o

Для лучшего понимания, вот как GPT-4o сравнивается с GPT-4 turbo. GPT-4o обладает тем же высоким интеллектом, но быстрее, дешевле и имеет более высокие ограничения по скорости, чем GPT-4 Turbo:

  • Цена. GPT-4o на 50% дешевле, чем GPT-4 Turbo, и составляет $5 за миллион входных токенов и $15 за миллион выходных токенов).
  • Лимиты. Лимиты скорости GPT-4o в 5 раз выше, чем у GPT-4 Turbo - до 10 миллионов токенов в минуту.
  • Скорость. GPT-4o в 2 раза быстрее GPT-4 Turbo.
  • Видение. Возможности зрения GPT-4o превосходят GPT-4 Turbo в тестах, связанных с возможностями видения.
  • Многоязычность. GPT-4o имеет улучшенную поддержку неанглийских языков по сравнению с GPT-4 Turbo.

GPT-4o в настоящее время имеет контекстное окно 128k символов, а ее дата окончания обучения - октябрь 2023 года.

Цена и доступность GPT-4o

Сейчас я не вижу опции GPT-4o в бесплатной версии ChatGPT. Но если вы перейдете в OpenAI Playground, то новая модель уже доступна.

Новая модель GPT-4o от OpenAI умеет петь и отвечать в режиме реального времени

Согласно твиту Сэма Альтмана, новый голосовой режим будет запущен в ближайшие недели для пользователей ChatGPT Plus.

Новая модель GPT-4o от OpenAI умеет петь и отвечать в режиме реального времени
  • Вход: $5,00 за 1 миллион токенов
  • Выход: $15,00 за 1 миллион токенов

Обратите внимание, что доступ к моделям GPT-4, GPT-4 Turbo и GPT-4o через OpenAI API предоставляется только после оплаты $5 и более (уровень использования 1).

В целом, это была впечатляющая демонстрация GPT-4o, особенно в том, что она бесплатна в использовании и впечатляет быстротой голосовых ответов.

Теперь вопрос в том, привлечет ли она больше пользователей? Безусловно, да. Новая модель бесплатна в использовании, а голосовые ответы в реальном времени определенно заслуживают внимания.

Однако стоит ли обновление 20 долларов? Я не могу сказать, что оно того стоит, потому что мне еще нужно провести больше практических тестов этой модели и понять, действительно ли она лучше, чем Claude Opus. Кроме того, поскольку Google может выпустить несколько крупных обновлений для Gemini во время завтрашнего Google IO, ажиотаж вокруг GPT-4o может оказаться недолгим.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Источник статьи на английском - здесь.

24
5 комментариев

Потыкал Claude Opus после прочтения этой статьи. Попросил Claude Opus, GPT-4 и GPT-4o провести код ревью одних и тех же кусков кода, который содержал очевидные ошибки. GPT-4o работает пошустрее чем GPT-4, дает более осмысленные ответы в контексте задачи, но может пропустить мелочи. GPT-4 в свою очередь уделяет больше внимания деталям реализации и отлавливает мелочи, но не всегда такой связный как 4о. А вот Claude Opus пропустил все ошибки в коде, и дал бесполезные рекомендации.

3
Ответить

Спасибо за мини-тест!

Ответить

«Сейчас я не вижу опции GPT-4o в бесплатной версии ChatGPT.»

В конце URL добавьте ?model=gpt-4o

https://chatgpt.com/?model=gpt-4o

1
Ответить

не работает ссылка для бесплатной подписки, как открывался 3.5, так и открывается.

2
Ответить

Спасибо! В подписке Plus без проблем можно выбрать.

Ответить