7 способов использовать синтез речи в обучении

7 способов использовать синтез речи в обучении

Технология Text to Speech (TTS) работает практически на всех цифровых устройствах: компьютеры, смартфоны, планшеты. Все, что для нее нужно, — это текст, который требуется воспроизвести. Помимо этого ее дополняют другие речевые технологии. То, что мы разрабатываем, становится частью edtech-рынка, оценка которого уже перевалила $7,5 млрд. Появляется все больше компаний, которые стараются изменить не только школьное и университетское образование, но занимаются переподготовкой и обучением специалистов.

Большинство людей пользуется технологиями распознавания речи, не замечая этого: голосовые помощники, «умные» устройства, голосовой набор текста. Ожидается, что к 2023 году рынок распознавания речи достигнет $16 млрд.

Стратегии использования

Равные возможности обучения. Для студентов с дислексией, изучающих родной или иностранный язык, может стать трудностью создание инклюзивной школьной среды. Доказано, что TTS улучшает успеваемость среди таких учащихся. Использование технологии также сэкономит средства на создании индивидуальных программ обучения, так как TTS более эффективное решение для проблем с чтением.

Упрощение процесса чтения. Для большинства учеников чтение — утомительный процесс. Но его можно упростить с помощью технологии. Например, когда студенту надоело читать, то он может надеть наушники и продолжить с помощью TTS. Исследования показывают, что технология помогает сконцентрироваться на содержании материала, а не процессе чтения, что улучшает его понимание.

Подставьте в блок любой текст и послушайте, как он звучит. В демо его можно прочитать с разной эмоциональной окраской, а в полной — использовать любые голоса. Представьте, что достаточно нажать на кнопку «Озвучить» в электронной книге или учебники, тем самым упростив процесс чтения.

TTS помогает работать с текстом. Часто люди ленятся вычитывать написанный текст или просто чувствуют себя неловко, когда делаю это вслух. Но послушать свои слова бывает полезно: можно заметить пропущенные знаки препинания, опечатки и неблагозвучие.

Виртуальный HR-ассистент. На его можно переложить задачи по адаптации новых сотрудников: разработать программу обучения, добавить базу знаний и FAQ. Так даже старый сотрудник может без стеснения задать вопросы.

Интерактивное обучение. Вместе с системой компьютерного зрения TTS можно превратить в виртуального наставника, который будет обучать работе с оборудованием. Например, давать подсказки по ремонту автомобиля или учить жарить котлеты.

Платформы с виртуальной реальностью, искусственным интеллектом и распознаванием речи могут обеспечить сотрудникам персонализированный подход. Например, сотрудники отделов продаж могут обучаться на виртуальных клиентах и общаться с машиной как с реальным человеком. Это поможет им подготовиться ко встречам с настоящими клиентами.

Проверьте себя с помощью нашего теста. Попробуйте угадать, где говорит робот, а где — реальный человек.

Языковая практика. Это важный момент в изучении иностранного языка, потому что таким образом запрекляется материал и запоминается произношение. Но не все могут позволить общение с носителем, поездку в языковой лагерь, а кто-то просто стесняется говорить с другими на иностранном. С помощью разговорных технологий можно снять этот барьер.

Сейчас мы разрабатываем чат-бота, который помогает изучать английский язык. Человек общается с ботом со встроенным GPT-2, он фиксирует неправильное произношение и другие ошибки в речи, а затем выдает отчет и предлагает повторить эти слова.

Развитие грамотности. На планете более 780 млн не умеют читать и писать. В основном это жители Центральной Африки и Западной Азии, где проживает 76% всех неграмотных людей. Системы синтеза и распознавания речи способны сделать для таких людей информацию и обучение доступнее. Мы безвозмездно предоставляем 1% наших мощностей для реализации проектов для малограмотного населения.

Какие технологии используются

Синтез речи (Text To Speech) основан на машинном обучении. Технологию можно использовать для преобразования текста в речь, генерации музыки, речи, создавать устройства с голосовой поддержкой, разработки систем навигации и реализации доступности для людей с нарушениями зрения. Например, с помощью TTS Стивен Хокинг общался с другими людьми.

Распознавание речи (Automatic Speech Recognition) сложнее, чем TTS, потому что нужно преобразовать разговорную речь в неидеальных условиях, где есть побочные шумы, особенности произношения и другие помехи. Чаще всего технология используется в виртуальных помощниках, например, Сири или Алекса.

Понимание естественного языка (Natural Language Understanding) используется с двумя предыдущими технологиями. С ее помощью можно автоматизировать работу колл-центров и служб поддержки, научить общаться ботов и умные устройства.

Lipsync позволяет сопоставить движение губ говорящего или поющего с предварительно записанным голосом, который будут слышать люди. С ее помощью можно «оживить» виртуального ассистента, учителя или игрового персонажа.

GPT-2 — языковая модель, которая обучалась на 8 млн веб-страниц. Она умеет предсказывать следующее слово в тексте, учитывая предыдущий контекст. Модель также распознает текст, отвечает на вопросы и переводит фразы без дополнительного обучения.

BERT — лингвистическая модель от Google, помогающая понимать и обрабатывать текст на естественном языке. Компании ее используют для обучения собственных моделей, а Google — для понимания контекста в поисковых запросах.

Преимущества платформ с распознаванием речи

  • Экономическая выгода. Автоматизированное обучение дешевле, чем индивидуальная работа преподавателя с каждым студентом или сотрудником.
  • Персонализация. Машина подстраивается под каждого человека, анализирует его сильные и слабые стороны. Из этих данных строится дальнейшая программа обучения и проводится работа над ошибками. Так все смогут достигнуть равные результаты обучения.

Имитация реальности. С помощью технологий можно воссоздать реальные ситуации и диалоги, чтобы отработать конкретные навыки. Например, кто-то хочет подтянуть английский язык перед поездкой, а другой — перед выступление на ИТ-конференции. Одному сотруднику нужно научиться общаться с премиальными клиентами, а другому — отрабатывать клиентский негатив. Для каждого из этих случаев можно создать реальные истории.

И если все это вам кажется неправдоподобным, то это только потому, что вы еще не слышали наших роботов. Послушайте, посмотрите, попробуйте поиграть с настройками нашего демо – и сравните их с голосами наших конкурентов.

99
4 комментария

А грамматике ваши роботы могут научить?

Ответить

Привет. Грамматике, если вопрос про Английский язык - то мы ка как раз с одной языковой школой прорабатываем такую возможность. Надо добавить распознавание голоса и NLP. 

Поэтому короткий ответ - да, если есть методология готовая. 

Ответить

Что значит готовая методология?
Сама методика или с наполнением контентом?

Ответить

Напишите на p@amai.io если есть конкретный запрос - я расскажу как это работает.

Ответить