Как сотрудники Яндекс Крауда помогли запустить в Переводчике языки народов России
Работа в Яндекс Крауде даёт возможность принять участие в важных и социально значимых проектах Яндекса. Один из них — добавление языков народов России в Яндекс Переводчик. Этот проект помогает сохранить многонациональную культуру страны с помощью современных технологий. Расскажем, какую роль в нём приняли сотрудники Яндекс Крауда и чем именно они занимались.
Зачем Яндекс Переводчику понадобилась помощь
По данным Института языкознания РАН, на территории России говорят на 155 языках, перевод с которых может понадобиться пользователям. Яндекс совместно с Федеральным агентством по делам национальностей и региональными языковыми институтами решил запустить поддержку некоторых из этих языков в Переводчике.
Яндекс Переводчик работает на основе нейросетей. Для их обучения используются корпуса размеченных текстов и аудиозаписей. Чем больше качественных данных, тем лучше можно обучить нейросеть и тем реже она будет допускать ошибки.
Переводчик работает с текстовым переводом (когда нужная фраза вводится с клавиатуры), голосовым вводом (когда переводится сказанная вслух фраза) и синтезом речи (когда озвучивается переведённый текст).
Для некоторых языков народов России в Переводчике уже несколько лет был доступен только текстовый перевод, но голосовой ввод и синтез речи не поддерживались.
Было необходимо найти носителей языков, чтобы с их помощью собрать и разметить данные, а также оценить качество текстового перевода. Для этого команда Переводчика обратилась за помощью к специалистам по разметке.
Как искали носителей языков
В Яндекс Крауде удалённо работают люди со всей страны — от Калининграда до Владивостока, поэтому поиск решили начать с опроса сотрудников. На него откликнулись более 1000 носителей 30 языков. Для решения сложных задач сотрудникам, занимающимся разметкой, помогали педагоги и лингвисты.
Как размечали звучащую речь
Корпуса для обучения моделей текстового перевода команде Переводчика помогают собирать региональные языковые институты. Объёма этих корпусов, как правило, достаточно для обучения моделей без участия Яндекс Крауда. Поэтому наша работа была сосредоточена на сборе и разметке данных для технологий голосового ввода и синтеза речи.
Для подготовки данных мы использовали реальные запросы из Яндекс Переводчика, а также тексты из интернета, книг и других источников. Прежде чем работать со звучащей речью, необходимо было отобрать из этих материалов наиболее подходящие фразы, исключив те, которые не имеют смысла, содержат неверный порядок слов или не включают слов на нужном языке.
Отбором фраз занимались эксперты. Затем для каждого языка сформировали группу из людей разного пола, возраста и уровня владения языком. Участникам предстояло наговорить отобранные фразы на диктофон — так же, как это делают пользователи Яндекс Переводчика. После этого они оценивали качество записей друг друга. Полученные данные использовались для обучения модели распознавания речи.
Чтобы модель могла одинаково хорошо распознавать разные типы голоса, для записей отбирают примерно одинаковое количество мужских и женских голосов
Для того, чтобы Переводчик мог правильно «произнести вслух» переведённый текст, его нужно было предварительно обработать: прописать числа словами, расшифровать аббревиатуры или исправить орфографию. Этим занимались сотрудники из команды разметки. Например, «ул. Ленина, д. 5» превратилось в «улица Ленина, дом пять».
Первые итоги проекта
Вместе с другими участниками проекта команда разметки помогла собрать до 100 часов аудиозаписей под каждый отдельный язык. Это позволило подготовить материалы для обучения моделей распознавания и синтеза речи для татарского, чувашского и башкирского языков. Они уже доступны в Яндекс Переводчике. Сейчас продолжается работа над другими языками народов России.
Также команда разметки помогает обучать визуальную нейросеть YandexART — узнать подробности можно в этой статье.
______________________________
Этот проект — один из многих в Яндекс Крауде. Над интересными задачами каждый день трудятся редакторы, дизайнеры, тестировщики, аналитики и другие специалисты. Если вы хотите участвовать в масштабных проектах, развивать популярные сервисы и работать удалённо, выбирайте подходящую вам вакансию по профилю, графику или интересам на официальном сайте Яндекс Крауда.