🎙🤖 Realtime API теперь в продакшне!
OpenAI официально сделала Realtime API готовым к продакшн-использованию — теперь можно строить голосовых агентов совершенно другого уровня. Вместе с релизом вышла модель gpt-realtime, которая делает общение максимально естественным в speech-to-speech технологиях.
Что нового:
- gpt-realtime — единая модель, которая сразу преобразует речь в речь, без цепочки «распознавание → LLM → синтез». Это снижает задержки и делает голос более естественным.
- Новые голоса — добавили Cedar и Marin + обновили 8 существующих. Звучат более живо, динамично, с лучшей интонацией и эмоциональной окраской.
- Поддержка изображений — теперь голосовой агент может воспринимать картинку вместе с запросом (например, клиент описывает проблему словами и показывает фото товара).
- SIP-звонки — можно интегрировать агента прямо в телефонию: от колл-центров до корпоративных АТС.
- Remote MCPs — возможность подключать внешние инструменты и сервисы напрямую, расширяя функционал агента (например, базы данных или системы бронирования).
- Reusable prompts — сохранение и повторное использование промтов. Это экономит время и обеспечивает стабильность при масштабировании проектов.
Насколько стало лучше (vs предыдущая версия Realtime / GPT-4o-mini-based):
• Big Bench Audio — 82.8 % против 65.6 %
• MultiChallenge — 30.5 % против 20.6 %
• ComplexFuncBench — 66.5 % против 49.7 %
То есть модель не только быстрее и естественнее звучит, но и реально лучше справляется со сложными сценариями и логикой.
А теперь главное: где это может пригодиться?
- Голосовые колл-центры — агенты, которые понимают речь клиента в реальном времени, отвечают естественно и сразу интегрированы с CRM.
- Медицина — врач диктует, ассистент фиксирует в карте и подготавливает протокол.
- Автомобили и гаджеты — голосовые помощники, которые действительно звучат естественно, а в будущем смогут даже сами звонить — например, ваша машина сообщит, что ей скучно и одиноко без вас 😊..
- Шопинг — заходите на маркетплэйс и говорите «Подбери мне кроссовки для бега по дождю» — и агент тут же выдаёт варианты.
- Образование и туризм — живой переводчик-репетитор-гид в кармане, показываешь ему изображение с камеры а он тебе сразу рассказывает, показывает, поясняет почти как живой человек.
Это не просто синтез речи. Это живой голосовой слой для любых сервисов — от колл-центров до умных очков.
Подписывайтесь на Telegram PromtScout.