OpenAI выпустила модели для озвучивания текста и создания голосовых помощников с поддержкой русского языка
Они доступны разработчикам и в бесплатной демоверсии.
- Компания представила модели на базе GPT-4o, которые преобразуют текст в аудио с помощью одного из предложенных ИИ-голосов, а также транскрибируют аудиозаписи и распознают речь в режиме реального времени.
- Они поддерживают более 100 языков, включая русский. Есть 11 голосов, для которых можно задать тон, эмоции и характер, описав их текстом. Например, заставить ИИ-агента говорить, как «безумный учёный», рассказал сотрудник OpenAI Джефф Харрис изданию TechCrunch.
- Нейросеть для озвучивания текста доступна в бесплатной демоверсии на сайте OpenAI.fm. Можно ввести максимум 1000 символов.
Голос Coral с эмоциональной окраской «Средневековый рыцарь». Он описан как «глубокий, властный и слегка драматичный» с «благородным тоном» и эмоциями «волнения, предвкушения и ощущения тайны». Описание можно изменить в поле снизу. Генерация vc.ru
Голос Ash с эмоциональной окраской «Профессионал». Он «чёткий, авторитетный и собранный» со «спокойной размеренной подачей». Генерация vc.ru
- Новые модели заменят нейросеть для преобразования текста в речь Whisper, которую OpenAI представила в 2023 году. Они делают меньше ошибок в словах и лучше распознают речь в шумной обстановке, а также реже «галлюцинируют» — выдумывают несуществующие слова, заявляют в компании.
Число ошибок, которые делает Whisper и новые модели. Источник: OpenAI
- В отличие от Whisper, компания не собирается публиковать открытый исходный код моделей. Они доступны разработчикам для работы через API.
- gpt-4o-transcribe и gpt-4o-mini-transcribe — модели для распознавания речи и преобразования её в текст. Работа с ними стоит $0,006 и $0,003 за минуту входного аудио соответственно (50 и 25 копеек по курсу ЦБ на 21 марта 2025 года). gpt-4o-mini-tts преобразует текст в аудио, 1 минута сгенерированной речи стоит $0,015 (1 рубль 27 копеек).
Голос Ash с эмоциональной окраской «Профессионал». Он «чёткий, авторитетный и собранный» со «спокойной размеренной подачей». Генерация vc.ru
Акцент, конечно, сразу [s]видно[/s] слышно англосакса.
Помню тоже заметил что включается англо-саксонский акцент, когда только вышел голосовой режим, но сейчас по-русски шпрехает - не придерешься. Видимо пофиксят тоже
Дедушка Мороз, скажи, тебе сразу ВСЕ мои письма на стол положили?! Это же просто
Круто, но даже не рядом с elevenlabs и их библиотекой голосов.
АПИ при этом стоит копейки.
А у них есть web интерфейс, или надо уметь как-то по api подключаться?
Лучше https://elevenlabs.io/app заюзать. Куда более совершенные модели (и text-to-voice и voice-to-text) и работать можно как по api, так и без. Есть клонирование голоса и обширная либа голосов под разные нужны, в т.ч. на русском.