OpenAI выпустила модели для озвучивания текста и создания голосовых помощников с поддержкой русского языка

Они доступны разработчикам и в бесплатной демоверсии.

Компания представила модели на базе GPT-4o, которые преобразуют текст в аудио с помощью одного из предложенных ИИ-голосов, а также транскрибируют аудиозаписи и распознают речь в режиме реального времени.
Они поддерживают более 100 языков, включая русский. Есть 11 голосов, для которых можно задать тон, эмоции и характер, описав их текстом. Например, заставить ИИ-агента говорить, как «безумный учёный», рассказал сотрудник OpenAI Джефф Харрис изданию TechCrunch.
Нейросеть для озвучивания текста доступна в бесплатной демоверсии на сайте OpenAI.fm. Можно ввести максимум 1000 символов.

Голос Coral с эмоциональной окраской «Средневековый рыцарь». Он описан как «глубокий, властный и слегка драматичный» с «благородным тоном» и эмоциями «волнения, предвкушения и ощущения тайны». Описание можно изменить в поле снизу. Генерация vc.ru

Голос Ash с эмоциональной окраской «Профессионал». Он «чёткий, авторитетный и собранный» со «спокойной размеренной подачей». Генерация vc.ru

Новые модели заменят нейросеть для преобразования текста в речь Whisper, которую OpenAI представила в 2023 году. Они делают меньше ошибок в словах и лучше распознают речь в шумной обстановке, а также реже «галлюцинируют» — выдумывают несуществующие слова, заявляют в компании.

Число ошибок, которые делает Whisper и новые модели. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Findex%2Fintroducing-our-next-generation-audio-models%2F&postId=1877908" rel="nofollow noreferrer noopener" target="_blank">OpenAI</a>

В отличие от Whisper, компания не собирается публиковать открытый исходный код моделей. Они доступны разработчикам для работы через API.

gpt-4o-transcribe и gpt-4o-mini-transcribe — модели для распознавания речи и преобразования её в текст. Работа с ними стоит $0,006 и $0,003 за минуту входного аудио соответственно (50 и 25 копеек по курсу ЦБ на 21 марта 2025 года). gpt-4o-mini-tts преобразует текст в аудио, 1 минута сгенерированной речи стоит $0,015 (1 рубль 27 копеек).

#новости #openai