Рубрика развивается при поддержке

Потерявший слух советский математик устроился в Google, чтобы помочь другим людям с нарушениями слуха и речи Материал редакции

Дмитрий Каневский разрабатывает продукты, которые помогают людям общаться с близкими, коллегами, мобильными устройствами и целым миром.

В закладки
​Дмитрий Каневский на мероприятии AI in Action

Тем не менее он научился читать по губам, закончил МГУ, стал кандидатом наук, переехал в США и сейчас работает исследователем в Google.

Последние 40 лет он разрабатывает устройства и технологии, которые помогают людям с нарушениями слуха. Например, прибор, помогающий «слышать» с помощью кожи, и приложение, которое переводит в текст речь людей с сильным акцентом, заиканием и другими особенностями речи.

Изобретатель рассказал, как создал свой аппарат для чтения с губ, устроился в Google и помог разработать алгоритм для автоматического создания титров на YouTube.

Конструктор

В детстве я потерял слух. Но меня научили читать по губам, и я пошёл в обычную школу.

У меня было много друзей. Тогда я не испытывал больших сложностей в общении. Трудно стало, когда в восьмом классе я перешёл во вторую математическую школу в Москве. Там были другие ребята и сложные технологические предметы — учиться приходилось в основном по учебникам.

Тем не менее после школы я поступил в МГУ — в 1969 году, а потом ещё восемь лет учился математике и стал кандидатом наук, написав диссертацию по алгебраической геометрии.

Думаю, математика делала меня более независимым. В ней ты один на один с проблемой. Ты можешь сфокусироваться на ней, бороться с ней. Это соответствует моему характеру.

Заканчивая диссертацию, я встретил будущую жену. Она переезжала со своими родителями в Израиль, и я решил отправиться вслед за ней.

Я знал, что в новой стране не буду так же хорошо читать по губам, как в СССР, и не смогу свободно общаться с людьми. Тогда я разработал аппарат, который помогал читать с губ.

Прибор крепился на теле и позволял «слышать» кожей — улавливал звуки и переводил их в вибрации. Проблема была в том, что некоторые звуки, например «с», «ш», «и», «а», находятся на высоких частотах, поэтому их сложно почувствовать кожей. Тогда я придумал переводить высокие частоты в низкие.

Мне удалось сделать настолько маленький аппарат, что его под одеждой не замечали другие люди.

Я получил разрешение вывезти устройство в Израиль, и оно помогало мне говорить на иврите, в котором большое количество слов с «высокочастотными» звуками вроде «шабат», «шалом» и так далее.

В Израиле я показал аппарат одному доктору. Он сказал, что это великолепная вещь и нужно открыть компанию по продаже устройства.

Мы назвали её SensorAid, и параллельно с этим стартапом я ещё работал математиком в институте Вейцмана. В месяц я зарабатывал 2000 шекелей, это было в 1981 году.

Аппарат потом применяли во многих странах — он был универсален для всего мира. В одной больнице его сравнили с разработкой компании Cohler, которая вживляла передатчик в ухо человека, чтобы он мог считывать звуки.

Мой аппарат показал такой же результат, как у Cohler, но их разработка стоила $25 тысяч и требовала серьёзной операции, а мой вариант был в несколько раз дешевле и не требовал вмешательства хирургов.

В 1984 году американская компания Spectro выкупила авторские права на аппарат (сумму сделки Каневский назвать отказался — vc.ru). Сперва я отправился работать в академические институты в Германии и США, а после перешёл в IBM.

Работа в IBM

В начале работы я разработал алгоритм для распознавания речи.

Чтобы перевести речь в текст, системе требовалось считать акустический сигнал и сопоставить его со словом, которое он представляет.

Для этого звук представляется как последовательность чисел, которая сравнивается с каждым словом в словаре, используя некоторый критерий. Произнесённым считается слово, которое лучше всего согласовано с этой последовательностью чисел. Критерии — многочлены, которые состояли из 50 млн переменных, или параметров.

В 1990-е годы вычислять многочлены с 50 млн параметров за линейное время (временная сложность алгоритма, которая зависит от числа операций — vc.ru) позволяли методы динамического программирования.

Более совершенные критерии были основаны не на многочленах, а на рациональных функциях — отношениях многочленов. Для них долгое время не могли найти способ вычисления значений для 50 млн параметров в линейное время. А я нашёл этот метод. И когда его стали применять, точность распознавания речи значительно улучшилась.

Дмитрий Каневский на мероприятии AI in Action

Вместе с этим я постоянно работал над технологиями, которые помогали бы людям с нарушениями слуха. В то время появился интернет и с его помощью я создал первые в мире сервисы, которые помогали понимать речь.

Например, сервис, который позволял переводить устную речь в письменную. Для этого клиент звонил людям, умеющим быстро печатать, включал громкую связь, и они набирали текст, который слышали во время звонка.

Текст в реальном времени высвечивался на экране компьютера клиента, и тот понимал, о чём говорят рядом с ним. Такая услуга стоила до $120–150 в час.

Также я занимался изобретательством, не связанным с распознаванием речи.

Одна из таких технологий — Artificial Passenger (искусственный пассажир — vc.ru). Она помогала водителям не уснуть за рулём. Система наблюдала за человеком, разговаривала с ним, поэтому водитель, отвечая на вопросы, не засыпал.

Другая разработка касалась безопасности в банках. Чтобы подтвердить личность клиента, консультанты обычно просили назвать его имя матери или жены.

Я разработал систему, которая позволяла банку собирать больше информации о клиенте, чтобы сотрудники каждый раз могли задать новый вопрос. Например: «Как зовут вашу собаку?» или «Когда вы вернулись из отпуска?»

В это же время технология идентифицировала голос звонящего и проверяла, действительно ли он принадлежит клиенту банка. Если всё было в порядке и человек давал правильный ответ на вопрос, сотрудник банка понимал, что звонит не мошенник.

Распознавание речи для YouTube

В 2014 году я перешёл в Google, где продолжил работать над распознаванием речи.

Я занялся системой Closed Caption для YouTube, которая автоматически распознаёт речь на видео и переводит её в субтитры. В то время технология работала плохо, и мы с командой должны были улучшить её алгоритм.

Для создания акустических моделей слов (математических функций, основанных на фонемах — элементарных единицах речи — vc.ru) нам были нужны данные: тексты и их озвученные версии, чтобы обучить машину. Причём нужно, чтобы слова произносились разными голосами.

Ранее для этого нанимались люди, которые слушали и расшифровывали аудио в текст. Так набирались несколько тысяч часов примеров речи, что мало для хорошей системы распознавания.

YouTube интересен тем, что там огромное количество видео, где звук и текст уже имеются. Многие пользователи загружают на сайт видеоролики, в которые уже сами вшили субтитры с расшифровкой. Отчасти это делалось потому, что ролики с субтитрами поиск выдавал выше.

У меня появилась идея использовать для обучения алгоритмов сотни тысяч часов готовых данных от пользователей. Проблема была лишь в том, что люди часто делают не только ошибки в тексте, но и просто ставят в субтитры случайный набор букв, чтобы получить высокий ранг при поиске. Нам пришлось поставить фильтры, которые отличали качественные данные от плохих.

В итоге мы закончили разработку в 2016 году, и Closed Caption стала намного лучше распознавать речь. То, что видят пользователи сейчас, нажимая на автоматическое создание субтитров, — результат этой работы.

Проекты для людей с ограниченными возможностями

В 2017 году я перебрался из офиса Нью-Йорка в калифорнийское отделение Google.

Уже тут за полгода вместе с командой я создал приложение Live Transcribe, которое использует ту же технологию перевода речи в текст, что и YouTube, но в виде отдельного приложения. С помощью него люди с проблемами слуха могут узнать, что им говорят.

Система распознаёт и дополнительные звуки, о которых также пишет пользователю: лай собаки, плач ребёнка, звук гитары, стук в дверь, смех и так далее. Эта часть аудиоинформации обрабатывается на самом телефоне, а расшифровка прямой речи работает через интернет.

Один из главных создателей этого приложения — Чет Гнеги. Часто сотрудники Google разрабатывают проекты для решения проблем их коллег. Гнеги видел, как я использую сервисы, где люди печатают для меня речь, которую слышат, и решил помочь.

Он создал первый прототип приложения. Оно помогало нам работать вместе и в итоге выросло в отдельный проект Google под названием Live Transcribe.

Ещё один проект, в котором я участвую, — Euphonia. Это приложение для людей с нестандартной речью: тех, у кого есть БАС (заболевание, при котором поражается центральная нервная система — vc.ru), глухих, заикающихся, людей переживших инсульт.

Для этого проекта нам вновь нужно множество примеров нестандартной речи. Только в этот раз их не найти даже на YouTube. Такая речь очень индивидуальна, и здесь нужен другой подход для сбора данных.

Я сам надиктовал первые 25 часов записи. Я заранее писал доклады, с которыми планировал выступать, а потом записывал их в аудио. Так я тренировал систему. Я мог выступать, а зрители видели текстовую расшифровку моих докладов.

С каждым новым выступлением система всё лучше меня понимала и распознавала даже новые фразы. Сейчас мне уже не нужно писать доклады заранее — алгоритм переводит в текст абсолютно всё, что я говорю.

Так стало понятно, что этот подход работает, и мы начали приглашать людей с особенной речью тоже читать и записывать текст.

В случае с людьми с БАС мы начали работу с того, что дали им типичные фразы, которые они говорят, чтобы взаимодействовать, например, с Google Home. Им нужно повторить 100 фраз, чтобы натренировать систему под себя. Таким людям трудно разговаривать, и они быстро устают, поэтому мы не можем ждать от них большого количества записей.

Тем не менее постепенно мы начали объединять примеры речи разных людей с этим заболеванием, чтобы в будущем создать универсальную систему. Это медленный процесс — данных слишком мало, и Euphonia — всё ещё проект-исследование, а не готовый продукт.

Euphonia не требует соединения с интернетом, как в случае с Live Transcribe. У смартфонов небольшие вычислительные мощности, на которых сложно заниматься расшифровкой аудио. Однако команде удалось справиться с этим.

Многие люди боятся, что их данные обрабатываются через интернет. Если пользователь приходит к врачу, то и он, и врач переживают, что их диалог попадёт на удалённые серверы. Тут этого нет, потому что для Euphonia не нужно подключение к сети.

Сейчас мы даём ссылку, где люди с особенностями речи могут зарегистрироваться и оставить примеры своей речи. В некоторых случаях Google старается делать для них бесплатно индивидуальный распознаватель речи.

Также я работаю над проектом по распознаванию языка жестов. Здесь мы работаем с визуальной информацией. Эта задача ещё труднее, чем распознавание речи. Сейчас разработка находится на начальном этапе.

В языке жестов один жест может означать не отдельную букву, а целую фразу. И нам вновь нужно найти огромное количество примеров. По этому проекту мы сотрудничаем с Галлодетским университетом. В США это единственное высшее учебное заведение для слабослышащих и глухих.

Кроме этого я вернулся к идее своего прибора, который переводил высокие частоты в низкие. Мои коллеги работают над его новой версией, более современной, с помощью которой получится передавать больше информации.

Прототип прибора перевода высоких частот в низкие

Каждый год в Google проводится конкурс, где можно предложить идею, как помочь людям с ограниченными возможностями. Примерно один месяц в году сотрудники могут работать над этим проектом.

Потом они показывают идею, и Google отбирает лучшие. Например, четыре года назад выиграл проект, который помогал людям с трясущимися руками держать ложку, чтобы есть.

Дмитрий Каневский
{ "author_name": "Дарья Дейнека", "author_type": "editor", "tags": ["\u0438\u0441\u043a\u0443\u0441\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439\u0438\u043d\u0442\u0435\u043b\u043b\u0435\u043a\u0442","youtube","google"], "comments": 48, "likes": 147, "favorites": 91, "is_advertisement": false, "subsite_label": "future", "id": 94909, "is_wide": true, "is_ugc": false, "date": "Fri, 29 Nov 2019 13:25:57 +0300", "is_special": false }
Самый сильный бренд
страны*
*Третий год подряд по версии Brand Finance
0
{ "id": 94909, "author_id": 238904, "diff_limit": 1000, "urls": {"diff":"\/comments\/94909\/get","add":"\/comments\/94909\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/94909"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 199118, "last_count_and_date": null }
48 комментариев
Популярные
По порядку
Написать комментарий...
35

Очень интересный человек! Спасибо большое за статью.

Ответить

Комментарий удален

25

Во-во, лучше бы остался в России и строил новые ядерные ракеты, танки, автоматы и торпеды: больше пользы для человечества. 

Ответить
5

И роботов Борисов)

Ответить
–4

Строить нужно, но без фанатизма и это куда лучше чем очередной потреблядский гаджет. 

Ответить
15

Напишу банальнейшую вещь сейчас, но каждый из нас имеет право жить и работать в любой стране, где у него получится это сделать

Ответить
–3

Зачем ты это написал?

Ответить
1

Чтобы я получил плюсов, а ты - минусов. Всё просто и очевидно.

Ответить
1

Плюсик хочешь, детка? на, порадуйся.

Ответить
0

Да ладно, не будь бякой

Ответить
8

Все закономерно, верхушка предала идеалы социализма и все пошло по пизде, почему простой человек должен терпеть плохие условия жизни когда дети чиновников живут за границей, мне непонятно.

Ответить
–1

Большевики так же рассуждали.

Ответить
0

Да ему вроде и без идеалов социализма заебись

Ответить
2

//

В Израиле я показал аппарат одному доктору. Он сказал, что это великолепная вещь и нужно открыть компанию по продаже устройства.

Мы назвали её SensorAid, и параллельно с этим стартапом я ещё работал математиком в институте Вейцмана. В месяц я зарабатывал 2000 шекелей, это было в 1981 году.

Ответить
–6

У тебя в голове конечно бабло все определяет.

Ответить
0

тут акцент на том, что в 1981 году он уже устроился в другой стране

не благодари

Ответить
–5

тут это где? озвучиваешь свой внутренний диалог?

Ответить
5

везет же людям - я еще день не закончил, а они уже отдыхают

Ответить
–3

Вообще да, ты угадал. Ngapali Beach, Rakhine State, Myanmar.

Ответить
0

не можешь два коммента связать между собой?

Ответить
0

могу, если не бред написан

Ответить
–12

Не факт, что он советский человек. Родился при советах, это да. Но он еврей. И правильно сделал, что уехал. Ты просто не знаешь что такое быть нацменом среди русских.

Ответить
0

Можно подумать, другие советские люди, которые не евреи, могли в 1980 году уехать.

Ответить
1

Не понял о чем ты. Подумать можно что угодно.

Ответить
0

Не он еврей, жена решила ей стать. Даже не жена, а девушка поначалу.

Ответить
1

Как это решила стать еврейкой? Он за ней как мог уехать? Только по еврейской имиграции, которую в советах разрешили в 70х.

Ответить
0

Верно. Но до этого евреи в основном скрывали еврейство.

Ответить
0

С ума сошел? Некоторые известные брали псевдоним, типа Утесова, Бернеса, Плисецкой.

Но чтобы скрывали и в основном - это чушь просто. Как ты скроешь с фамилией Коган, Чухрай, Пельтцер, Плучек или Копелян.

Да и потом пятая грава же была. О чем тут вообще говорить? Удивительно откуда у вас такое мракобесие в головах. У одного изобр6етатели бежали от совфетской власти, у другого евреи скрывали национальность.
Это все от невежества.

В любой науке фундаментальные работы подписаны еврейскими фамилиями: Иоффе, Харитон, Капица, Книжник.
А лучший учебник русского языка за авторством Розенталя.

Ответить
5

Прощай, Стив Джобс, у меня новый кумир

Ответить
3

RESPECT

Ответить
3

Душевная статья

Ответить
2

Математики, объясните, откуда появляется многочлен с 50 млн параметров в задаче распознавания?

Ответить
0

Видать, многочлены Чебышева, они естественно возникают при работе с периодическими сигналами:

Back in the 19th century, Pafnuty Chebyshev discovered a set of polynomials known as the Chebyshev polynomials. Mathematicians like them for lots of different reasons, but computer musicians like them because they can be used to make weird noises, er, we mean music. These Chebyshev polynomials have the property that if you input a sine wave of amplitude 1.0, you get out a sine wave whose frequency is N times the frequency of the input wave. So, they are like frequency multipliers. 

Можно нагуглить много старых работ по словам speech recognition polynomial.

Ответить
1

Дарья, динамическое программирование означает рекуррентный спуск к подзадачам, а не что-то вроде адаптивного дизайна)

Ответить
2

Подскажите, что именно нужно поправить в тексте?)

Ответить
1

Есть значимая цель 🎯 = есть серьёзные достижения , возможности и в итоге деньги

Ответить
1

Побольше бы таких людей которые двигают вперёд прогресс

Ответить
–3

а как же Сколково?

Ответить
0

Когда он уезжал никаких Сколковых, Медведевых с инновациями и прочего не было.

Ответить
2

Были Дубна, Черноголовка, Академгородок

Ответить
0

А ещё была советская власть , без чьего позволения никакие разработки не могли получить финансирование. Это и многое другое вынуждало советский изобретателей бежать из страны.

Ответить
2

До-до-до. Советские изобретатели бежали от кровавой советской власти косяками. Это тебя в школе этому учили или сам выдумал?

Ответить
1

Ну конечно. В Высшей Школе Десоветизации им. Степана Бендеры

Ответить
–2

ненависть к Степану Бандере ватанам в мозг через дуроскоп вкачивают?

Ведь не Бандера организовывал концлагеря ГУЛАГа, например...

Ответить
2

вот ведь. что не скажи, хохлам на мозоль наступишь. этож шутка была. кто там вас ненавидит-то..

Ответить
1

 ненависть к Степану Бандере ватанам в мозг через дуроскоп вкачивают?

Через рассекреченные архивы ЦРУ США. Английский если осилишь можешь сам почитать, все в открытом доступе на официальном сайте лежит. Или туда по твоему мнению тоже ватаны проникли и они там американцам в мозги насрали? 

Ответить
0

Читается на одном дыхании, спасибо за статью! Именно то, чего так не хватает данному ресурсу!

Ответить

Комментарий удален

0

У интеллектуалов свои мимимишечки. Образцово-показательные разработки для вируальных инвалидов, спасение озонового слоя и полярных медведей, переход на светлую сторону Силы с лазерным мечом.

Ответить

Комментарий удален

0

Так вот кто ввел субтитры на ютубе! Спасибо ему огромное. И да, научиться читать по губам можно и самостоятельно. Я так сделала, потому что всё, что говорят совпадает с губами на 100%, но не всё разобрать можно. Поэтому глухие общаются на жестах.  

Ответить
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "Article Branding", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "cfovx", "p2": "glug" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Баннер в ленте на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "disable": true, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } }, { "id": 20, "label": "Кнопка в сайдбаре", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "cgxmr", "p2": "gnwc" } } } ] { "page_type": "default" }