История голосового управления: когда мы начали пытаться говорить с машинами и как они научились нас слышать

В 1970-х общение с роботами казалось научной фантастикой: R2D2 и C3PO из «Звёздных войн», способные понимать и говорить, были героями далекого будущего. На самом деле технологии распознавания голоса существовали тогда уже больше двух десятилетий, а синтезом речи учёные занялись еще в XVIII веке. Ну а сегодня прохожий, разговаривающий с умными часами, уже не вызывает удивления. Рассказываем, как человек учил машины общаться: от первых искусственных звуков до персональных виртуальных ассистентов.

1773: Первые попытки научить машины говорить

Первым имитировать человеческое общение с помощью техники попытался в 1773 году немецкий учёный Христиан Кратценштейн, работавший в России. Он изобрёл синтезатор речи на основе трубок органа, который издавал гласные звуки: а, э, и, о, у. Металлические детали резонировали в трубах подобно голосовым связкам. Ещё одно раннее изобретение — говорящая машина австрийца Вольфганга фон Кемпелена 1791 года. Меха подавали воздух на металлический язычок, а человек помогал аппарату генерировать нужные звуки, прикрывая клапан ладонью: устройство произносило простые слова, например «мама» и «папа».

<p>Говорящая машина Кемпелена, экспонат Deutsches Museum, Мюнхен</p>

В XX веке на смену механическим машинам пришли электрические. В 1922 году появилась схема английского физика Джона Стюарта: она издавала несколько гласных звуков с помощью резонаторов — подобно радиоприёмнику. А в 1938 году представили синтезатор на электронных осцилляторах и фильтрах, способный произносить любые слова. Машина Voder, напоминавшая фортепиано, даже умела петь. Её разработала компания Bell Laboratories, которая сейчас называется Nokia Bell Labs.

1952: Audrey от Bell Labs — машина, которая понимает речь

Поняв физику электронного синтеза речи, ученые начали описывать ее формантами — наборами резонансных частот звуков, которые создают связки, язык и губы. Эти описания стали основой технологии распознавания: в 1952 году машина Audrey от Bell Laboratories понимала, когда человек называет цифры от 0 до 9. Audrey воспринимала форманты говорящего и сравнивала их с образцами. Устройство работало точнее, когда слова произносил человек, чьи записи использовались как эталонные. Так возникла задача, которую будут решать в течение следующих десятилетий: научить машины распознавать форманты одних и тех же слов у разных людей.

<p>Графические описания формант слов, обозначающих цифры</p>

1962: IBM Shoebox — появление голосового управления

В 1962 году технологию распознавания голоса публично представила корпорация IBM. Экспериментальная машина Shoebox (дословно – коробка от обуви, по габаритам аппарата) понимала 16 слов: цифры и команды для операций с числами, такие как «плюс», «минус» и «равно». Shoebox принимала речь с помощью микрофона, передавала команды на счетное устройство, которое печатало ход и результаты арифметических операций на бумаге.

<p>Работу Shoebox демонстрировали по телевидению и на Всемирной выставке 1962 года в Сиэтле. Фото из архива IBM</p>

В 1960–1970-х годах идея голосового управления стала популярной благодаря голливудским блокбастерам. Один из самых известных — «Космическая одиссея 2001 года» Стенли Кубрика. В фильме компьютер HAL синтезирует и распознает беглую человеческую речь — совсем как живой. Позднее общающиеся роботы R2D2 и C3PO появились в «Звёздных войнах» Джорджа Лукаса.

1971: Harpy — государственный проект и новый алгоритм

Разработкой технологий распознавания голоса заинтересовалось Министерство обороны США. В рамках программы DARPA Speech Understanding Research (SUR) в 1971 году разработали систему Harpy. Она понимала 1011 слов. Всё благодаря новому подходу: подобие записанных слов сравнивали с эталонами при помощи теории графов. С алгоритмом «поиск луча» (beam search) машина способна воспринимать речь по частям, исходя из синтаксиса и разных форм слов. «Поиск луча» также используют в машинном переводе. Несмотря на новаторство, система всё ещё была исследовательской и была непригодна для коммерческого использования.

1986: IBM Tangora — пишущая машинка с большим словарным запасом

В 1970-х к IBM присоединился Фред Йелинек из Корнелльского университета. Он считал, что в новых разработках нужно отказаться от «подражания» человеческой речи. Он начал искать способы распознавания, основанные на работе компьютера, — и в 1986 году создал пишущую машинку Tangora с голосовым управлением.

В Tangora работал статистический алгоритм на основе скрытой модели Маркова: компьютер рассчитывал вероятности того, что воспринимаемый звук будет частью какого-то слова. Изобретение позволило серьёзно расширить словарный запас: Tangora понимала 20 тысяч слов и несколько предложений. Машинка обучалась под работу с новым пользователем в течение 20 минут. Исследователи начали применять её в своей работе: рабочие станции Tangora на основе компьютеров IBM помогали создавать текстовые документы голосом.

1987: Джули — умная кукла

В 1987 году компания Worlds of Wonder выпустила в продажу умеющих общаться кукол Джули. Электроника внутри понимала 16 слов и отвечала с помощью синтезатора речи. Датчики помогали умной кукле «отличать» день от ночи, а также «чувствовать» холод и тепло — так разговоры получались содержательными. Как и машинку Tangora, Джули нужно было обучать под голос конкретного человека.

До 1980-х разработчики в основном занимались методами преобразования звуковых волн в текст. После появления массовых устройств исследователи начали изучать пользовательский опыт. Выяснилось, что с машинами люди говорят так же, как друг с другом: с упрощённым синтаксисом и искажением литературного языка. Для корректного диалога устройствам не хватало словарного запаса и способности понимать нестандартные речевые конструкции. Ограничения были связаны прежде всего с низкой производительностью процессоров.

1990–1997: Dragon NaturallySpeaking — непрерывный распознаватель речи

С распространением интернета и персональных компьютеров технологии распознавания голоса начали развивать как программное обеспечение — так в 1990 году появилась Dragon Dictate. Супруги Джеймс и Джанет Бейкеры разрабатывали подобные программы с 1977 года, но для полноценной работы компьютерам не хватало мощности процессоров и оперативной памяти. Dragon Dictate работала на операционной системе DOS и распознавала 30 тысяч слов естественного языка. Слова приходилось чётко выговаривать и диктовать по одному.

В 1997 году систему улучшили — появилась Dragon NaturallySpeaking (DNS). Первые версии уже распознавали непрерывную речь — до 100 слов в минуту. Для корректной работы пользователь тренировал программу в течение 45 минут. DNS стала коммерчески успешной — и совершенствуется до сих пор.

Dragon NaturallySpeaking стала первой программой распознавания речи на Windows

2008–2011: Голосовые помощники Google, Apple и другие

В 2000-х технологию развивали с помощью машинного обучения. В 2008 году Google создал Voice Search — программу голосового управления для iOS: собственной мобильной операционной системы у компании не было. На тот момент в iPhone уже были подобные приложения, например SayWho. Но Voice Search отличался инновациями. Он использовал GPS-датчик для более точных ответов на запросы, такие как «Где ближайший Starbucks?». К тому же, Voice Search был облачным: запись голоса обрабатывалась не на iPhone, а отправлялась на серверы Google.

Эпоха смартфонов дала голосовому управлению полноценное применение. Появились настоящие виртуальные ассистенты, помогающие использовать разные функции смартфона через речевые команды.

Позднее Google стал использовать своего голосового помощника на Android. Компания Apple разработала собственную технологию, в 2011 году представив Siri — первого помощника с узнаваемым голосом. На английском языке Siri говорит голосом Сьюзан Беннетт — актрисы озвучивания рекламных роликов. Спустя несколько лет голосовыми помощниками обзавелись и другие IT-гиганты: в 2014 году Microsoft представил Cortana, а Amazon — Alexa. Позднее технологией заинтересовались и российские компании — появились голосовые помощники Алиса, Маруся и Олег.

Рынок устройств с технологиями распознавания речи растёт: их используют не только в качестве голосовых помощников в гаджетах, но и для управления беспилотными автомобилями и даже в автоматизации производств. По прогнозам экспертов, к 2025 году размер мирового рынка технологий распознавания голоса составит $27,16 млрд. Для сравнения: в 2019 году он был почти в три раза меньше — $10,7 млрд.

А голосовые ассистенты, которые раньше могли выполнять ограниченный круг задач, становятся умнее с каждым днём. Благодаря прорыву в синтезе речи их голоса сегодня звучат естественнее, а из программ, способных только ставить будильник и совершать звонки, они превратились в полноценных помощников.

Мы в SberDevices развиваем целое семейство виртуальных ассистентов с тремя персонажами — это Сбер, Джой и Афина. Сейчас технологии позволяют наделять ассистентов характерами, чтобы дать пользователям возможность выбрать близкого по духу персонажа. Способы взаимодействия тоже изменились: если первые голосовые помощники могли понимать только речь (и то не всегда хорошо), то с современными ассистентами можно общаться ещё и жестами. Для этого, разумеется, нужна камера — о том, как это работает у нас, мы уже рассказывали. И, конечно, виртуальные ассистенты сегодня умеют гораздо больше, чем их предшественники: они живут в банковских приложениях и помогают управлять финансами, а ещё — умеют заказывать еду, рекомендовать подходящий контент и многое другое.