MyShell выпускает искусственный интеллект для клонирования голоса OpenVoice

MyShell выпускает искусственный интеллект для клонирования голоса OpenVoice

Новый ИИ с открытым исходным кодом под названием OpenVoice предлагает клонирование голоса с беспрецедентной скоростью и точностью.

Разработанный исследователями из Массачусетского технологического института, Университета Цинхуа и канадского стартапа MyShell, OpenVoice использует всего несколько секунд аудиозаписи для клонирования голоса и позволяет детально контролировать тон, эмоции, акцент, ритм и многое другое.

Компания MyShell представила OpenVoice в своем сообщении на этой неделе, сославшись на предварительно рассмотренный научный документ, объясняющий технологию, а также на демонстрационные сайты на MyShell и HuggingFace, где пользователи могут попробовать ее.

Две модели ИИ позволяют мгновенно клонировать голос

OpenVoice включает в себя две модели искусственного интеллекта, которые работают вместе для преобразования текста в речь и клонирования тембра голоса.

Первая модель работает со стилем языка, акцентами, эмоциями и другими речевыми шаблонами. Она была обучена на 30 000 аудиообразцов с различными эмоциями от носителей английского, китайского и японского языков. Вторая модель "преобразователя тона" обучалась на более чем 300 000 образцов, охватывающих 20 000 голосов.

Комбинируя универсальную модель речи с образцом голоса, предоставленным пользователем, OpenVoice может клонировать голоса, используя очень мало данных. Это позволяет ему генерировать клонированную речь значительно быстрее, чем альтернативы вроде Meta's Voicebox.

Калифорнийский стартап

OpenVoice - это разработка калифорнийского стартапа MyShell, основанного в 2023 году. MyShell, получившая $5,6 млн в рамках раннего финансирования и насчитывающая уже более 400 000 пользователей, называет себя децентрализованной платформой для создания и обнаружения приложений искусственного интеллекта.

Помимо клонирования голоса, MyShell предлагает оригинальные текстовые чатботы, генераторы мемов, созданные пользователями текстовые ролевые игры и многое другое. Некоторый контент закрыт за абонентской платой. Компания также взимает плату с создателей ботов за их продвижение на своей платформе.

Открывая свои возможности клонирования голоса через HuggingFace и одновременно монетизируя свою более широкую экосистему приложений, MyShell стремится увеличить количество пользователей в обоих направлениях, продвигая открытую модель развития ИИ.

Материал предоставил: Райан - старший редактор TechForge Media

ps. Комментируйте и лайкайте, пожалуйста! Это помогает продвижению статьи.

Ну и как положено, канал тг))) Канал и чатик

Там в закрепленном боты для доступа в Chat GPT и Dalle без VPN и другие нейросети.

Нейросети, работающие с аудио в наших сервисах (KolerskyAi) , это Whisper от OpenAi. Там можно переводить аудио и голосовые в текст, а так же делать запросы к ChatGPT голосом.

44
6 комментариев

хорошая штука, но новости для актеров все хуже и хуже

2
Ответить

Как и для таксистов

Ответить

Уже становится не по себе от новых разработок ИИ. С одной стороны круто, что прогресс не стоит на месте, а с другой все эти подделывания лиц и голоса ничем хорошим не отличились. Вспомнить даже недавний случай с Тейлор Свифт. Про простых людей без таких связей и денег я уже молчу

1
Ответить

А кто твой любимый исполнитель?
Мой? ИИ- знаешь его?

1
Ответить

с моим голосом можно не переживать, что еге кто то захочет клонировать😁

Ответить