Вышел Realtime API от OpenAI: Голосовой ИИ с низкой задержкой

Realtime API — это интерфейс для создания быстрых мультимодальных приложений (речь-в-речь).

Он позволяет модели напрямую обрабатывать аудиопоток, минуя промежуточные стадии преобразования текста.

Основные характеристики:

— Низкая задержка (Low-latency): Прямая передача аудио через одну модель минимизирует паузы в диалоге.

— Мультимодальность: Модель gpt-4o-realtime воспринимает интонации, смех и акцент, отвечая с аналогичной эмоциональной окраской.

— Обработка прерываний: Система автоматически распознает голос пользователя и прекращает генерацию ответа, обеспечивая естественный диалог.

Инструменты (Function Calling): Поддержка выполнения кода и вызова внешних сервисов во время голосовой сессии.

После альфа-теста для обработки телефонных звонков с использованием ИИ:

66% уровень человеческого контакта (по сравнению с 43,7% %) — больше реальных разговоров, меньше проблем
97,9% идеальных оценок по 95 оцененным диалогам
Показатель завершения диалогов составляет 38% (по сравнению с 33% ранее %)
Показатель проблемных случаев снизился вдвое: 2,1% против 4,2%.

Голос звучит естественно — сотрудники общаются так, как будто разговаривают с обычным абонентом, оставаясь доброжелательными на протяжении всего разговора.

Доступно по API

Смотреть видео в Telegram

Подписывайтесь на Telegram Ринат Шакиров | Промпты для Midjourney | ChatGPT.