{"id":14271,"url":"\/distributions\/14271\/click?bit=1&hash=51917511656265921c5b13ff3eb9d4e048e0aaeb67fc3977400bb43652cdbd32","title":"\u0420\u0435\u0434\u0430\u043a\u0442\u043e\u0440 \u043d\u0430\u0442\u0438\u0432\u043e\u043a \u0438 \u0441\u043f\u0435\u0446\u043f\u0440\u043e\u0435\u043a\u0442\u043e\u0432 \u0432 vc.ru \u2014 \u043d\u0430\u0439\u0434\u0438\u0441\u044c!","buttonText":"","imageUuid":""}

Машинное обучение и Эббингауз: как смоделировать образовательную онлайн-платформу

Эксперимент сервиса для изучения английского языка Puzzle English.

Казалось бы, что может быть проще: перенеси опыт школы в онлайн — и дело в шляпе. Но на практике это сложно. Реконструкция процесса обучения языку с помощью современных информационный технологий — задача нетривиальная.

В обучение мы погружены с раннего детства, оно естественно для нас, как дыхание, и мы впитываем новое из воздуха, не осознавая этого. Наблюдаем и копируем, играем и экспериментируем, пробуем и ошибаемся, соревнуемся и всё время получаем обратную связь, достигая результата и считывая реакцию окружающих.

Школа — лишь фрагмент обучения. Объяснение и запоминание, чтение и повторение, тренировка навыка и применение знаний в решении учебных задач, постановка целей учителем и внешний контроль — хороши как дополнение к жизненному контексту — к полноценному обучению.

Жизнь богаче любой модели. Однако современные информационные технологии имеют огромный потенциал реконструкции реальности. Развивая образовательный онлайн-проект, мы стараемся точнее задать параметры модели. И прежде всего — принципы.

Принципы

Системность обучения реализована через методически выверенные учебные программы. Гибкий подход проявляется в возможности начинать с определённого уровня, менять траекторию обучения, персонализировать тематические модули.

Структурированность. Мы определили четыре категории контента:

  • Тематическая.
  • Возрастная.
  • Лингвистическая и стилистическая (акценты, таргетирование определённой лингвистической категории: глагольные формы, прилагательные, идиомы и так далее).
  • Экспертная (по уровням сложности и уровням обучения от Beginner (A1-A2) до Advanced (C1-C2)).

Система позволяет выбирать и задавать категории.

Связность достигается за счёт сквозных сервисов: словаря, личного плана, а также истории обучения. Например, студент может посмотреть видеоурок, добавить слово в словарь, а потом учить его в ходе тренировок, занятий по личному плану или в лингвистических играх.

Вариативность механик обучения

В жизни, сами того не замечая, мы используем целый арсенал инструментов самообучения. Современные технологии позволяют в онлайне реализовать основные механики.

Наблюдение и копирование в изучении языка реализуется через возможность трансляции видеоконтента с субтитрами (параллельными и синхронными). Студент в этом случае имеет возможность погружения в контекст, копирования как произношения, так и модели поведения (жестов, артикуляции).

Отработка навыка в игре — геймификация в обучении применяется для отработки навыка в безопасной, специально смоделированной ситуации. Мы, например, предлагаем целый арсенал игр для отработки лингвистических навыков.

Пробы и ошибки или экспериментирование — метод хорошо описан бихевиористами ещё в начале прошлого века. «Транслейты» или набор заданий для перевода, а также ежедневная фраза — «Переводилка дня» — позволяют, экспериментируя, оттачивать владение языком. Рейтинг точности вариантов переводов виден тут же.

Повторение или тренинг реализованы во многих сервисах нашей образовательной платформы. Самый очевидный вариант так и называется — «Тренировки слов». Вариант сложнее — занятия по личному плану, когда машина, опираясь на анализ ошибок, выдаёт материал для повторения, проработки проблемных моментов.

Вопросы и ответы — механика реализована традиционным способом через занятия с преподавателем.

Самостоятельное изучение материала — практически все сервисы допускают возможность самостоятельных занятий, самой простой реализацией являются аналитические рассылки, посвящённые актуальным темам изучения языка.

Обсуждение и общение — студенты активно общаются как в чатах, так и в группах платформы в социальных сетях.

Оценка и самооценка — при желании студент может пройти тест, пообщаться с однокурсниками в чате и получить обратную связь как от них, так и от преподавателя.

Говоря об изучении иностранного языка, мы традиционно выделяем основные аспекты обучения, формирующие ключевые лингвистические навыки и знания.

Основные аспекты обучения

Современная образовательная онлайн-платформа по изучению языка охватывает следующие аспекты:

  • чтение;
  • аудирование;
  • формирование лексикона;
  • формирование грамматических компетенций;
  • устная речь;
  • формирование семантического поля (языковой картины мира).

Ключевые концепции дистанционного обучения и технологичность

При разработке сервисов образовательной онлайн-платформы мы применяем не только информационные технологии, но и наработки методистов и психологов (например, «Кривые Эббингауза», «Кошелёк Миллера», Феномен И. М. Сеченова).

Мультимодальность

Словарь содержит не просто переводы, но также аудиопримеры произношения слов и выражений в различных транскрипциях и видеопримеры. Для аудиопримеров («озвучек») используются специально подготовленные записи живых дикторов и вывод пяти различных TTS (text-to-speech system, Vocalware и другие).

Всего задействовано более 20 голосов, представляющих различные акценты, тембры и варианты произношений (мужские и женские голоса, акценты, скорость речи). Подбор видеопримеров осуществляется с учётом контекстного значения слова из общей базы, насчитывающей сейчас порядка 430 тысяч тщательно размеченных видеофрагментов, снабжённых переводом.

Для определения контекстного значения слова используется смешанный подход: результаты поиска с учётом автоматической частеречной разметки модерируются фидбеком пользователей, выбирающих правильное значение слова и перевод слова в конкретном контексте.

Для частеречной разметки используется Stanford Log-linear Part-Of-Speech Tagger. Также при поиске переводов учитывается частотность слов (используется один из наиболее полных и аккуратных датасетов для вычислительной лингвистики: 100 000 words listBrigham Young University с частеречной разметкой тэггером CLAWS-7).

Общая частотность переводов также учитывается: для этого используются данные системы Google Translate (как основанные на наибольшем числе запросов, потому наиболее полные).

Аудио- и видеопазлы позволяют одновременно задействовать несколько каналов восприятия информации, при этом активно включают пользователя в геймифицированный учебный процесс. Для этого требуется очень точная разметка гетерогенного аудио- и видеоконтента по времени.

Эта часть — пример значительной ограниченности существующих на сегодня технологий. Ни одна из существующих систем forced alignment («принудительное выравнивание» — авторасстановка таймкода для существующего транскрипта на основе распознавания речи), включая коммерческие, не в состоянии дать приемлемый для учебных целей результат на таком материале. Их точность слишком низка.

Для предоставления пользователю качественно выделенного фрагмента речи требуется точность не ниже 20 миллисекунд, в то время как лучшие из подобных систем на «живом», а не «лабораторном» материале ошибаются в среднем в 10-15 раз сильнее (причина — наличие шумов, фоновых звуков, музыки, требующих для обработки как минимум изоляции вокала (voice separation). Поэтому разметки такого материала делаются вручную.

Синхронные подкасты позволяют одновременно слушать английскую речь, видеть услышанное на экране и читать перевод именно этого фрагмента речи. Здесь благодаря тому, что материал близок к «лабораторному» (типичные тембры, чёткая артикуляция, близкое к «эталонному» произношение), как раз удалось применить автоматизированные технологии.

Разметка таймкода осуществляется с помощью технологии принудительного выравнивания (forced alignment), по готовому транскрипту с помощью forced aligner’а gentle (представляет собой реализацию алгоритма Витерби на базе результатов распознавания речи ASR-системой Kaldi).

Транскрипты предварительно обрабатываются инструментами Stanford Core NLP (автоматическая токенизация, выделение предложений, частеречная разметка). Параллельный перевод (перевод, в котором исходным элементам текста — предложениям, фразам — чётко сопоставлены элемента перевода) осуществляется с помощью CAT (computer-aided translation) системы Smartcat AABBYY.

Видеоролики и песни с двойными субтитрами. Технология двойных субтитров заключается в возможности видеть произносимый в материале текст на языке оригинала и одновременно его перевод.

Мы используем технологии выравнивания таймкода и выравнивания переводов (варианты алгоритма Витерби). Также нам пришлось полностью кастомизировать веб-плеер и плеер в мобильных приложениях, так как готового решения для одновременного показа титров на разных языках не существует.

Интерактивность

Реализована в разных формах, значительная часть интерактивного контента геймифицирована, как в вебе, так и в мобильных приложениях.

Интерактивные онлайн-уроки с живыми преподавателями реализованы на платформе Twilio.

Комментарии к фразам — тоже форма интерактива, здесь важно, что пользователи могут задать экспертам вопросы относительно употребления слов, грамматических конструкций, переводов и получить квалифицированные ответы в короткие сроки.

Это тоже своего рода общение с преподавателем. При этом, чтобы сохранить высокую информативность разделов и страниц, комментарии общего характера, не несущие никакой полезной информации другим пользователям, нам приходится модерировать.

Персонализация

Личный план обучения — центральный компонент, назначение которого — связать различные модули и обеспечить осмысленный и эффективный вариант учебного процесса, подходящий не только для уровня пользователя, но и для его целей и задач.

Расчёт личного плана основан на технологиях машинного обучения, статистическом анализе результатов выполнения заданий и результатов игр и истории активности пользователя. Предлагая обучающемуся определённую траекторию, система сохраняет возможность для пользователя её изменить, поскольку меняются как цели пользователя, так и его текущие возможности.

Тренировки слов основаны на кривых забывания, при этом учитывают и индивидуальные особенности (скорость прогресса обучения, словарный запас и так далее).

Занятия по «Методу Тичера» предусматривают возможность гибко менять траекторию обучения в зависимости от текущих потребностей пользователя и его целей, включать или исключать определённые модули, курсы и прочее. «Метод Тичера» состоит из миниблоков — грамматических заданий для самостоятельной работы и авторских, совершенно уникальных видеоуроков, выстроенных в последовательную систему.

Курс хорошо выверен с точки зрения восприятия информации: миниблоки хорошо усваиваются, не вызывая информационной перегрузки и стресса. Переключение с одного вида деятельности на другой минимизирует вероятность утомления, делает курс легким в прохождении.

Техническая реализация «Тренировок слов» и курса «Метод Тичера» довольно проста — стек технологий php+mysql+reactjs.

Мотивация

Традиционно самое слабое место дистанционного обучения. Студентам в свободном режиме сложно организовать самих себя на последовательное выполнение задач. Для мотивации пользователей мы используем рассылки с напоминаниями о заданиях, дайджесты, сообщения об очередных задачах по расписанию личного плана; бонусную систему «пазликов», которые можно тратить в специальном магазине, и дополняющую её систему рейтингов.

Доступность

Чрезвычайно важная характеристика любой платформы онлайн-обучения. Мы достигаем доступности своих продуктов для подавляющего большинства пользователей за счёт поддержки не только веб-версий, но и реализации и поддержки всех ключевых функций в мобильных приложениях для iOS и Android. Связность и устойчивость данных пользователя при переходе между платформами обеспечивается общим хранилищем данных и общим API.

Резюме

Развивая платформу, мы стремимся дать адекватные возможности всем пользователям. Вариативность запросов бесконечна: кто-то приходит к нам восстановить и поддержать уровень знания английского, кто-то хочет выучить язык с нуля, некоторые онлайн-студенты ограничены во времени и могут заниматься не более 15-20 минут в день, другие не хотят растягивать и выбирают два-три месяца насыщенных занятий.

Кому-то сложно воспринимать язык на слух и надо развить именно этот навык, а у кого-то плохо с грамматикой или устной речью. Наши учащиеся различны и по психотипам: интровертам вполне комфортны самостоятельные занятия, а эксраверты не могут без общения и контакта с преподавателем.

Аудиалы и визуалы не могут обойтись без аудио- и видеоконтента, а кинестетикам необходимо работать хотя бы на клавиатуре, чтобы лучше усваивать учебный материал.

И нам, кажется, удаётся отвечать на многообразие запросов наших пользователей: мы прибыльны — чистая прибыль в 2017 году составила 122 млн рублей — и самостоятельно финансируем разработку новых продуктов, число учащихся на ресурсе приближается к 5 млн человек.

Мы — технологичный стартап и стараемся профессионально подходить к технологическим аспектам. Мы глубоко убеждены, что ни одна из ИТ-технологий не может сама по себе решить проблемы обучения.

Но грамотное, аккуратное и органичное применение технологий там, где они могут быть применены, может принести действительную пользу учебному процессу — это подход, в который мы верим и стремимся реализовать в Puzzle English.

При подготовке текста использованы материалы Кирилла Косенкова.

0
2 комментария
Jamilya Kotlyarova

Интересный анализ, спасибо!

Ответить
Развернуть ветку
Елена Абрамова
Автор

Спасибо, Джамиля. Будем стараться и впредь радовать Вас интересными материалами

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
-1 комментариев
Раскрывать всегда