Вышел Realtime API от OpenAI: Голосовой ИИ с низкой задержкой
Realtime API — это интерфейс для создания быстрых мультимодальных приложений (речь-в-речь).
Он позволяет модели напрямую обрабатывать аудиопоток, минуя промежуточные стадии преобразования текста.
Основные характеристики:
— Низкая задержка (Low-latency): Прямая передача аудио через одну модель минимизирует паузы в диалоге.
— Мультимодальность: Модель gpt-4o-realtime воспринимает интонации, смех и акцент, отвечая с аналогичной эмоциональной окраской.
— Обработка прерываний: Система автоматически распознает голос пользователя и прекращает генерацию ответа, обеспечивая естественный диалог.
- Инструменты (Function Calling): Поддержка выполнения кода и вызова внешних сервисов во время голосовой сессии.
После альфа-теста для обработки телефонных звонков с использованием ИИ:
- 66% уровень человеческого контакта (по сравнению с 43,7% %) — больше реальных разговоров, меньше проблем
- 97,9% идеальных оценок по 95 оцененным диалогам
- Показатель завершения диалогов составляет 38% (по сравнению с 33% ранее %)
- Показатель проблемных случаев снизился вдвое: 2,1% против 4,2%.
Голос звучит естественно — сотрудники общаются так, как будто разговаривают с обычным абонентом, оставаясь доброжелательными на протяжении всего разговора.
Подписывайтесь на Telegram Ринат Шакиров | Промпты для Midjourney | ChatGPT.