Что может новая модель GPT-4o ?

Вот чем GPT-4o отличается от предыдущих моделей.

https://openai.com/index/hello-gpt-4o/
https://openai.com/index/hello-gpt-4o/

🗣 Голосовой ассистент распознает речь и поддерживает диалоги в реальном времени. Взаимодействие происходит более естественно, чем раньше: время отклика на аудиозапросы составляет в среднем 0,3 секунды, что сопоставимо со скоростью реакции человека.

Нейросеть говорит не роботизированным монотонным голосом, а смеется, выражает эмоции, меняет интонации и даже поет.

📹 Распознавание видео и изображений. GPT-4o лучше анализирует и интерпретирует визуальные данные. Она распознает объекты, действия и сцены в видео. Например, модель смогла транскрибировать ролик и выделить разных спикеров с записи встречи. Раньше нейросеть работала только со статичными изображениями: картинками, скриншотами, фото.

📄 Обработка текста соответствует уровню GPT-4 Turbo при работе на английском. На других языках работу существенно улучшили.

🗂 Увеличенное контекстное окно. Нейросети можно «скармливать» большие объемы информации. На презентации она поддерживала разговор в течение семи минут, а в примерах на сайте OpenAI сделала краткий пересказ 40-минутного видео.

🌅 Улучшенная работа с изображениями. Нейросеть создает текст практически без артефактов, а также консистентных персонажей в разных позах и 3D-модели.

📈 Мультимодальность. Модель принимает на входе и генерирует на выходе любые комбинации текста, аудио и изображений. Она работает по принципу end-to-end, что означает, что все виды информации обрабатываются одной нейросетью.

фрагмент на русском с презентации GPT-4o

Как можно использовать модель ?

OpenAI показала на презентации несколько вариантов использования возможностей новой модели. Вот некоторые из них.

Общаться как с другом. Нейросеть в прямом эфире посмотрела на сотрудника OpenAI и поняла, что он в приподнятом настроении. А потом спросила, чему он так радуется, и смутилась, когда тот сказал, что проводит презентацию ее возможностей.

Учить языки. Нейросети можно показать разные объекты и попросить переводить на другой язык. Например, в деморолике GPT-4o показали фрукты, ручки и плюшевую игрушку — она перевела все верно.

Оценить образ. Сотрудник OpenAI спросил, достаточно ли он хорошо выглядит для похода на собеседование, — GPT-4o порекомендовала ему причесаться. Когда тот надел шляпу, нейросеть сказала, что он выглядит несерьезно, и посоветовала ее снять

Провести игру «Камень, ножницы, бумага». Два человека играли, а GPT-4o выступала комментатором: распознавала, что они показывают, озвучивала все действия и объявила победителя.

Обучать математике. Нейросеть попросили помочь с тригонометрическим уравнением, но не давать ответ сразу, а научить подростка решать его самостоятельно. GPT-4o провела по шагам, исправила ошибки и привела к верному ответу.

Петь. Сотрудница OpenAI попросила нейросеть сочинить песню про Сан-Франциско и спеть ее несколькими голосами одновременно. GPT-4o исполнила песню а капелла: генерировать инструментальную музыку она не может.

Пока нейросеть доступна только с текстовыми и визуальными возможностями. Когда появится поддержка аудио и видео, неизвестно.

Разработчикам GPT-4o доступна по API. Она работает в два раза быстрее и стоит в два раза дешевле, чем GPT-4 Turbo. Компания также пересмотрела токенизацию : например, при генерации на русском языке количество токенов уменьшилось в 1,7 раза.

Некоторым платным подписчикам ChatGPT тоже предоставили доступ к нейросети. В течение нескольких недель GPT-4o появится у всех.

Бесплатным пользователям ChatGPT дадут доступ к GPT-4o в ближайшее время с ограничением по количеству сообщений.

На сайте Chatbot Arena текстовые возможности GPT-4o доступны бесплатно, но с ограничениями по количеству запросов.

В наушниках Nothing появится интеграция с голосовым ассистентом в ChatGPT в конце мая.

3
Начать дискуссию