xAI выпустила API Grok Voice Agent

Отличная аудиомодель, которая заняла первое место в бенчмарке аудиоинференции и с ценой всего $0.05 в минуту.

Основные моменты:

  • Ввод и вывод голоса в реальном времени (двухсторонняя голосовая связь)
  • Поддержка десятков языков, включая русский
  • Он может автоматически распознавать язык пользователя и свободно переключаться в разговоре
  • Поддержка вызова внешних инструментов
  • Сетевой поиск и вывод в реальном времени
  • Поддержка эмоциональных подсказок для управления голосом
  • Предлагает широкий выбор вокальных вариантов
  • Совместимость со спецификацией OpenAI Realtime API
Начать дискуссию