реклама
разместить

Озвучка диалогов с помощью нейросети FishSpeech

Озвучка диалогов с помощью нейросети FishSpeech

Озвучка диалогов из текста может сильно упростить и ускорить работу во многих ситуациях: подкасты, аудиокниги, обучающие материалы, рекламные ролики, создание игр, reels и даже фильмов.

Часто записать аудио крайне трудно: нет доступа к микрофону, шумная обстановка или ограниченные временные рамки. Или просто лень.

Поэтому сегодня на обзоре нейросеть Fishspeech, которая реалистично озвучит текст, сохраняя интонации и эмоциональную окраску. Так ещё можно добавлять свои голоса или использовать уже готовые 50+ голосов от сообщества Нейро-Софт. Вообще сказка! Давайте к обзору.

❯ Основные особенности FishSpeech🐠

Fish Speech Dialogue — современный инструмент для озвучивания диалогов и реплик с использованием разнообразных голосов.

Благодаря портативной версии не нужна установка базового Fish Speech MOD, а функциональность доступна «из коробки»:

  • Поддержка до 10 говорящих. Идеально для одиночных реплик и сложных диалогов.
  • Автоматическое распределение голосов. Экономит время, подбирая подходящие голоса для каждого персонажа.
  • Библиотека из 50+ голосов от сообщества. От Жириновского до Яндекс Алисы.
  • Форматирование диалогов. Автоматическое оформление в формате «Говорящий: текст».
  • Различные форматы сохранения. Поддерживаются WAV, MP3 и FLAC.
  • Мультиязычный интерфейс. Доступны русский и английский.
  • Автообновления и интеграция с GitHub.
Интерфейс FishSpeech Dialogue
Интерфейс FishSpeech Dialogue

Нас встречает такой интерфейс. В самой верхней строке можно выбрать язык интерфейса, изначально будет английский.

Левое окно «Статистика диалога» — основное рабочее поле. В верхней части окна отображается количество говорящих, число реплик и общее количество символов. Нижняя часть содержит текст диалога.

Диалоги необходимо оформлять так: каждая реплика должна начинаться с имени говорящего и двоеточия. Пример видно на скриншоте выше.

В правой части интерфейса находится блок с итоговым результатом и кнопка «Сгенерировать диалог».

Плавно спускаемся ниже.

Озвучка диалогов с помощью нейросети FishSpeech

Количество говорящих — это автоматический параметр, который определяется системой в зависимости от структуры диалога.

Для каждого говорящего доступна отдельная панель настроек. Здесь можно:

  • Указать имя говорящего, которое должно совпадать с именем в тексте диалога.
  • Выбрать референсный голос из доступных вариантов.
  • Загрузить собственную аудиодорожку и использовать голос из неё. Также необходимо подписать транскрипцию. В этом случае нейросеть будет использовать загруженный голос для генерации диалога. Транскрипцию пишем сплошным текстом.

Последняя функция очень полезна. Когда ваш профессиональный диктор заболел, можно чуть схитрить и продолжить процесс записи и озвучки :D

В самом низу находятся расширенные настройки:

Озвучка диалогов с помощью нейросети FishSpeech

Честно, расширенные параметры я не щупал, меня интересовал лишь принцип работы и результаты. Но я попросил ассистента Perplexity пояснить, что это, кому интересно, вот выжимка:

Озвучка диалогов с помощью нейросети FishSpeech

В общем, всё до безумия просто. Пишем или генерируем диалог, выбираем голоса и получаем озвучку. Давайте посмотрим на неё в деле.

❯ Примеры и возможности

Начнём с простого — рассуждения Винни-Пуха.

Давайте усложним и представим миниатюру: бытовой диалог Джонни Сильверхенда и Яндекс Алисы.

Сгенерируем диалог с тремя участниками - Шерлок Холмс, Сергей Дружко и Кот Матроскин. Такого вы ещё не слышали.

Далее я решил попробовать сгенерировать что-нибудь на английском с голосом Матроскина. И вышло очень даже неплохо и похоже.

Дмитрий Нагиев и Чебурашка:

Ну и напоследок я попросил свою знакомую записать пару голосовых для теста. Дальше скачал их в формате .ogg, конвертировал в .mp3 и загрузил в нейросеть. Для транскрипции я использую крутую нейронку Whisper, скачать её можно на GitHub. Там всё интуитивно понятно, думаю, разберётесь. Вот что получилось.

Ещё пара примеров:

Как итог, FishSpeech — удобный инструмент, который помогает озвучивать тексты даже в ситуациях, когда запись голоса невозможна. Простота и гибкость делают его отличным решением для создания игр, подкастов, аудиокниг и других проектов, где важна качественная озвучка.

Скачать портативную версию FishSpeech с установкой в один клик для самых ленивых вы можете тут.

Озвучка диалогов с помощью нейросети FishSpeech

Подписывайтесь на 👾Нейро-Софт, канал с портативными версиями ваших любимых нейросетей!

44
реклама
разместить
2 комментария

Неужели нельзя все это как-то облегчить, чтобы не нужно было какого-то суперкомпьютера? Даже те диалоги, которые установлены по умолчанию, генерируются минут 20 не меньше. Компьютер свободно тянет любые видеоигры. В танках ФПС 200. А для нейросетей нужен не понятно какой компьютер.

Я для себя делаю аудиокниги при помощи программы Koobaudio. На создание одной книги уходит не более 7-10 минут, с учетом корректировки ударений. А тут такую книгу и за месяц не сделать.

[]