Лого vc.ru

Иван Смольников, ABBYY: Как мы используем краудсорсинг для перевода курсов Coursera

Иван Смольников, ABBYY: Как мы используем краудсорсинг для перевода курсов Coursera

Генеральный директор ABBYY Language Services Иван Смольников написал для ЦП колонку, в которой рассказал, как компания создавала краудсорсинговую платформу для того, чтобы перевести курсы на платформе онлайн-обучения Coursera.

Поделиться

Генеральный директор ABBYY Language Services Иван Смольников

Coursera — глобальный образовательный стартап, который бесплатно предоставляет пользователям онлайн-доступ к курсам лучших университетов. Поскольку это интернет-сервис, он изначально доступен кому угодно в любой стране мира. Однако большинство курсов, открытых на Coursera сегодня, представлены на английском языке. Чтобы эти знания стали доступным для русскоязычной аудитории, требовался перевод. Сделать перевод курсов на коммерческой основе для Coursera было крайне проблематично, так как за перевод каждого курса пришлось бы заплатить 10-20 тысяч долларов, а иногда и больше — в зависимости от объема. При этом на проекте уже сейчас около 700 курсов, и их количество постоянно растет. Кроме того, они время от времени меняются и дополняются, а значит, чтобы поддерживать актуальность контента, придется постоянно нести расходы по уже переведенным курсам.

Нас заинтересовала инициатива центра Digital October (DO), который начал активно продвигать Coursera в России, проводя различные мероприятия для популяризации возможностей проекта. Некоторое время мы размышляли, как наши технологии автоматизации перевода и опыт в области локализации могли бы сделать эти уникальные знания доступными для русскоязычного мира, и в результате предложили DO и Coursera запустить краудсорсинговый проект по переводу курсов в России. Для этого мы спроектировали и разработали специальную облачную платформу для краудсорсинг-перевода. В ее основу легло наше основное технологическое решение для автоматизации перевода SmartCAT, которое предназначено для профессиональных переводчиков.

К слову, на рынке были уже готовые технологические решения для краудсорсинга. Некоторыми из них Coursera пробовала пользоваться самостоятельно или с помощью локальных партнеров, пытаясь привлекать для работы сообщество волонтеров. Но эффективность была достаточно низкой. Проанализировав это, мы решили взяться за проект целиком: то есть не просто разработать новое технологическое решение, но и самостоятельно заняться привлечением переводчиков на эту платформу, их вовлечением в проект и поддержанием активности. Использование чужого решения грозило многими рисками, на которые впоследствии было бы сложно влиять, если бы решение не понравилось волонтерам (что зачастую и происходит).

В результате мы сами сделали решение, с которым просто и удобно работать даже тем, кто никогда ранее не занимался профессиональным переводом и не сталкивался со средствами автоматизации. Затем мы начали закрытое тестирование, привлекли небольшое количество участников и на основе их отзывов около полугода дорабатывали платформу. На этой стадии у нас участвовало около 300 волонтеров, которые перевели почти 100 тысяч слов (примерно 400 стандартных страниц текста).

Публичный запуск «Переведем Coursera» состоялся 25 марта. После него проект стал привлекать все больше участников, а объем перевода ежедневно возрастает. Мы тесно работаем с волонтёрами: общаемся, отвечаем на вопросы, с наиболее активными встречаемся у нас в офисе. Это помогает лучше понять, что им нравится или не нравится, и с каждым апдейтом делать платформу еще интереснее и комфортнее.

Часто спрашивают: как гарантировать качество в переводе, над которым работают тысячи волонтеров? Безусловно, это один из важных и сложных вопросов. Участвовать в проекте могут все желающие, и для многих это — возможность совершенствоваться в английском и одновременно углубить понимание предметной области (об этом говорят сами волонтеры). В нашем решении каждый участник может работать над любой заинтересовавшей его частью курса, даже если она уже была переведена кем-то ранее. В результате для каждого предложения в системе накапливается несколько вариантов перевода. 

Участники проекта не только переводят, но и голосуют за переводы других пользователей, а в качестве финальной версии выбирается вариант, получивший наибольшее количество голосов сообщества. Такая механика позволяет получать переводы достаточно высокого качества, потому что очень часто в качестве переводчиков проекта можно увидеть настоящих профессионалов-экспертов в различных областях знаний. У нас также появилось некоторое количество экспертов, которые готовы выступать в качестве выпускающих редакторов. Они внимательно просматривают варианты участников перед тем, как готовые субтитры выкладываются на Coursera для общего использования, — таким образом обеспечивается финальная проверка качества выбранных сообществом переводов.

С момента публичного запуска проекта число участников выросло почти до пяти тысяч, и они уже перевели целый миллион слов (примерно 4 тысячи страниц, около 10 курсов среднего объема). На сайте Coursera подходит к концу сессия обучения по первому курсу, русские субтитры для которого подготовили волонтеры (Inspiring Leadership Through Emotional Intelligence от Case Western Reserve University), а его автор Ричард Бояцис написал нам, что благодаря нашему переводу количество слушателей из России возросло в несколько раз.

В нашем проекте очень важно то, что его участники делают по-настоящему социально значимую работу, ведь переведенные материалы будут бесплатно доступны для всех. Поэтому волонтеров мотивирует не только саморазвитие, но и вклад в важное и полезное дело.

Мы с командой поймали себя на мысли, что краудсорсинг при эффективной организации процесса дает потрясающие возможности, а облачные технологии, позволяющие организовать сплоченную работу многих людей, уже меняют не только нашу переводческую отрасль. И это, конечно, очень интересно.

Статьи по теме
9 бесплатных июльских курсов для стартаперов от Coursera26 июня 2014, 21:23
Популярные статьи
Показать еще
Комментарии отсортированы
как обычно по времени по популярности

А не полезнее ли английский выучить?

0

то есть вы изобрели нотабеноид.ру?

0

Возможность комментирования статьи доступна только в первые две недели после публикации.

Сейчас обсуждают
Roman Novikov

Идея для бизнеса? Да ладно!

Betterment — инвестиционный помощник, который помогает клиентам распоряжаться своими деньгами
0
Дмитрий Астапкович

да, это позабавило:

"Уверен, находись мы в Штатах, то личные встречи, медвежье обаяние и непринужденный английский язык на уровне Intermediate смогли бы убедить будущих инвесторов в серьезности наших намерений. "

Странная уверенность, если честно. Ни слова о продукте или команде, все чисто на обаянии и _среднем_ английском. Прямо USP.

Думаю, что просто деньги кончились бы значительно быстрее.

5 советов о том, как провалить проект
0
Андрей Загоруйко
Quest.ai

В России контентый проект я уже сделал, а на Западе пока не готов. Но все может быть!

5 советов о том, как провалить проект
0
Андрей Загоруйко
Quest.ai

Игорь, добрый день! Спасибо за такой подробный комментарий. Немного о себе - я не журналист, у меня техническое образование, и код/технологии мне гораздо ближе чем медиа и статьи. Отличать хороших инженеров от плохих это не такая простая задача, с которой не каждый HR-департамент крупной компании всегда справляется, ну вы и сами знаете. У меня вроде получилось найти хороших, но проект провалился совсем не из-за этого.

Если конкретно про диалоговые решения для магазинов говорить, то тут действительно, есть много проблем. Первая - данные. Взять их, хорошего качества и в достаточных количествах (миллионы строк) действительно неоткуда. По понятным причинам доступные корпусы текстов не подходят для таких специфических задач.

С пониманием вопросов особых сложностей нет, к счастью есть довольно много хороших nlp фреймворков (если говорит про английский текст). Но, конечно, если посмотреть на реальные диалоги реальных покупателей, которые пишут в чат на сайте, то становится понятно, что до 100% понимания еще очень далеко.

Есть другие вопросы, например, если вы делаете ваше решение как плагин для существующего решения (от zendesk/salesforce до каких-то локальных игроков), то нужно понимать, что те прекрасно понимают перспективность автоматизации этих процессов и сотрудничать будут хотеть очень слабо, и точно будут иметь в виду возможность создания своего собственного решения.

5 советов о том, как провалить проект
0
Фёдор Гайдамакин

Но ведь с ФБР вы готовы делиться информацией. Почему с ФСБ не хотите?

Касперская рассказала о работе ФСБ и Роскомнадзора над перехватом и дешифровкой трафика россиян
0
Показать еще