Качественно озвучить текст нейросетью бесплатно? Плюсы и минусы трех нейронок, которые использовала
Казалось бы, нейросети на каждом шагу, в том числе для генерации речи, но на практике время и нервы. Рассказываю подробнее.
С чего все началось
Если коротко, идея была максимально приземленная: хотела собрать серию бесплатных курсов по английскому для будущих выпускников, кто по разным причинам не могут позволить себе регулярные занятия с репетитором. Инструмент для подготовки, который можно открыть и пройти в своем темпе.
Идея появилась примерно в конце прошлого года, на этапе планирования все выглядело спокойно: формат экзамена знаком, типы заданий отработаны годами, но сразу стало понятно, что слабым местом станет аудирование. С грамматикой и лексикой можно работать в текстовом формате, со чтением тоже, а вот качественные аудиозаписи в домашних условиях... задача со звездочкой.
Знакомых носителей языка, которых можно попросить начитать материалы, у меня не особо, а покупать профессиональную озвучку под бесплатный курс не могла себе позволить по финансовым причинам, так как работаю одна, без команды и без бюджета как для онлайн-школы, поэтому пришлось искать технические обходные пути.
Сервисы для озвучки: бесплатные и не очень
Логичным шагом стали нейросети для генерации речи.
ElevenLabs
Поспрашивала коллег в чате репетиторов, чем они пользуются. Преподавательница из Испании уверенно рекомендовала ElevenLabs, прислала примеры аудио, которые, как мне показалось, звучали довольно естественно. На этом месте началась первая серия приключений: сервис на моем пк не открылся из-за региональных ограничений, несмотря на прокси другой страны.
Плюсы: довольно естественные голоса, есть возможность работать со скоростью и интонацией
Минусы: не открывается в России прям совсем:(
Narakeet
Следующим кандидатом стал Narakeet (вспомнила рекомендацию друга). По качеству он мне понравилось, особенно возможность регулировать темп и интонацию, но довольно быстро закончился бесплатный лимит генерации. Способа оплатить подписку из России я не нашла (на известных сервисах . На этом этапе стало окончательно понятно, что быстрым этот проект не будет.
Плюсы: много голосов, можно влиять на интонацию (несильно), ускорять или замедлять голос. Работает без МЗТ
Минусы: 30 минут бесплатной генерации, о чем не сказано заранее, можно докупать по 30 минут, но платежный сервис не нашелся.
TT Synth
В итоге я остановилась на бесплатном онлайн инструменте для генерации аудио TT Synth. Ограничение — десять аудиофайлов в день, что растянуло сроки производства контента на пару недель. Сервис также периодически выдавал ошибки генерации: максимальный лимит текста составлял около 5 000 символов, но на практике иногда корректно озвучивалось только две тысячи, остальное приходилось дробить и собирать вручную.
У меня даже появилось несколько "любимчиков":
2521 - elisa-🇨🇦 canada female voice (отпахала большую часть аудио, пока другие модельки ушли "отдохнуть");
2568 - lauren-🇺🇸united states female (звучит естественно, но часто не работала);
2576 - megan-🇺🇸united states female (см. Лорен с:);
2560 - gary-🇺🇸 united states male voice (отпахал за диктора и всех мужских персонажей).
Плюсы: сервис бесплатный, 10 аудио в день, затем нужно подождать 24 часа. Много естественных голосов
Минусы: работает только с VPN. При примерном заполнении половины поля для генерации часто выдает ошибки. Нет возможности повлиять на скорость и интонацию "говорящего".
Итоги
К слову, у большинства сервисов есть одни и те же "модели", будут звучать одинаково, но под разными именами:)
В сумме производство блока для аудирования (примерно 30 аудиозаписей и их дальнейшее сведение) заняло примерно полтора месяца, что на потраченном времени и силах в проект довольно ощутимо.
P.S. Сейчас курс выложен на платформе Stepik и спокойно ждет своих пользователей. Если Вам или Вашим детям тема с ЕГЭ актуальна, рада видеть на бесплатном курсе:)
Кстати, там же есть мой курс английского для ИИ! Также совершенно бесплатно:)