В студии мы выбрали около 20 тестовых фраз из разных функциональных групп, чтобы они могли выстраиваться в предложения. Через, пять, 200, метров, километров, поверните налево, перед светофором и подобные. Записали их, отправили диктора отдохнуть, а сами выбрали удачные дубли и прогнали материал через тестовый стенд, эмулирующий алгоритм навигатора.
С Гоблином лишь имидж бы себе подпортили и не малый % пользователей отказались бы от услуги. С Дроздовым - попадание в самое "яблочко".
А представьте Соловьева или Киселева?))
Немалый - это какой? Который вышел после фильма про дворец? Или у вас другие претензии к Дим Юричу? 😂
Озвучка от Дениса Колесникова (Кураж-Бамбей) норм бы зашла
После "Через" (и еще в некоторых местах) чересчур большие паузы. Так люди не говорят. Логично, что фразы должны собираться как конструктор, но это легко фиксится, если записывать либо всю фразу целиком, либо тот же "Через" и фонетическое начало следующих потенциальных слов (если приложение уведомляет о двухстах метрах, пятидесяти и ещё скольких-нибудь, достаточно записать "Через с-", "Через д-" и тому подобные. На склейке это будет звучать органичнее).
А в целом — круто! Кастомизация — это хорошо.
Плюсую. Достаточно неестественные паузы в конструкциях типа "через_двести_метров съезд,_поверните направо", чем грешат и конкурентные навигаторы.
Звуковики и актёры - молодцы, вопрос не к ним. В идеале конечный алгоритм должен не просто проигрывать аудиофайлы в ряд, а сшивать из них на лету цельные предложения с интонационными паузами по контексту. Тогда собственно и несчастным звуковикам не пришлось бы их и подрезать вручную на сотне файлов.
Другая крайность — прописать в грамматике максимум готовых составных фраз, чтобы алгоритм делал меньше склеек, просто доставал из библиотеки целиком записанную фразу. Звучать будет естественнее. Конечно, это нереально. Пришлось бы записывать тысячи(если не десятки тысяч) комбинаций.Есть ведь здесь умные люди? Подскажите, разве нельзя было на основе записей голоса (плюс может со старых видео подтянуть звук) сгенерировать десятки тысяч комбинаций фраз, не мучая диктора? Deepfake ведь с видео справляется, неужели с аудио сложнее (наверно проще)?