🎙🤖 Realtime API теперь в продакшне!

OpenAI официально сделала Realtime API готовым к продакшн-использованию — теперь можно строить голосовых агентов совершенно другого уровня. Вместе с релизом вышла модель gpt-realtime, которая делает общение максимально естественным в speech-to-speech технологиях.

🎙🤖 Realtime API теперь в продакшне!

Что нового:

  • gpt-realtime — единая модель, которая сразу преобразует речь в речь, без цепочки «распознавание → LLM → синтез». Это снижает задержки и делает голос более естественным.
  • Новые голоса — добавили Cedar и Marin + обновили 8 существующих. Звучат более живо, динамично, с лучшей интонацией и эмоциональной окраской.
  • Поддержка изображений — теперь голосовой агент может воспринимать картинку вместе с запросом (например, клиент описывает проблему словами и показывает фото товара).
  • SIP-звонки — можно интегрировать агента прямо в телефонию: от колл-центров до корпоративных АТС.
  • Remote MCPs — возможность подключать внешние инструменты и сервисы напрямую, расширяя функционал агента (например, базы данных или системы бронирования).
  • Reusable prompts — сохранение и повторное использование промтов. Это экономит время и обеспечивает стабильность при масштабировании проектов.

Насколько стало лучше (vs предыдущая версия Realtime / GPT-4o-mini-based):

• Big Bench Audio — 82.8 % против 65.6 %

• MultiChallenge — 30.5 % против 20.6 %

• ComplexFuncBench — 66.5 % против 49.7 %

То есть модель не только быстрее и естественнее звучит, но и реально лучше справляется со сложными сценариями и логикой.

А теперь главное: где это может пригодиться?

  • Голосовые колл-центры — агенты, которые понимают речь клиента в реальном времени, отвечают естественно и сразу интегрированы с CRM.
  • Медицина — врач диктует, ассистент фиксирует в карте и подготавливает протокол.
  • Автомобили и гаджеты — голосовые помощники, которые действительно звучат естественно, а в будущем смогут даже сами звонить — например, ваша машина сообщит, что ей скучно и одиноко без вас 😊..
  • Шопинг — заходите на маркетплэйс и говорите «Подбери мне кроссовки для бега по дождю» — и агент тут же выдаёт варианты.
  • Образование и туризм — живой переводчик-репетитор-гид в кармане, показываешь ему изображение с камеры а он тебе сразу рассказывает, показывает, поясняет почти как живой человек.

Это не просто синтез речи. Это живой голосовой слой для любых сервисов — от колл-центров до умных очков.

Подписывайтесь на Telegram PromtScout.

1
1
Начать дискуссию