Вышел Realtime API от OpenAI: Голосовой ИИ с низкой задержкой

Realtime API — это интерфейс для создания быстрых мультимодальных приложений (речь-в-речь).

Он позволяет модели напрямую обрабатывать аудиопоток, минуя промежуточные стадии преобразования текста.

Основные характеристики:

— Низкая задержка (Low-latency): Прямая передача аудио через одну модель минимизирует паузы в диалоге.

— Мультимодальность: Модель gpt-4o-realtime воспринимает интонации, смех и акцент, отвечая с аналогичной эмоциональной окраской.

— Обработка прерываний: Система автоматически распознает голос пользователя и прекращает генерацию ответа, обеспечивая естественный диалог.

  • Инструменты (Function Calling): Поддержка выполнения кода и вызова внешних сервисов во время голосовой сессии.

После альфа-теста для обработки телефонных звонков с использованием ИИ:

  • 66% уровень человеческого контакта (по сравнению с 43,7% %) — больше реальных разговоров, меньше проблем
  • 97,9% идеальных оценок по 95 оцененным диалогам
  • Показатель завершения диалогов составляет 38% (по сравнению с 33% ранее %)
  • Показатель проблемных случаев снизился вдвое: 2,1% против 4,2%.

Голос звучит естественно — сотрудники общаются так, как будто разговаривают с обычным абонентом, оставаясь доброжелательными на протяжении всего разговора.

1
1 комментарий