Рубрика развивается при поддержке

Потерявший слух советский математик устроился в Google, чтобы помочь другим людям с нарушениями слуха и речи Материал редакции

Дмитрий Каневский разрабатывает продукты, которые помогают людям общаться с близкими, коллегами, мобильными устройствами и целым миром.

В закладки
​Дмитрий Каневский на мероприятии AI in Action

Тем не менее он научился читать по губам, закончил МГУ, стал кандидатом наук, переехал в США и сейчас работает исследователем в Google.

Последние 40 лет он разрабатывает устройства и технологии, которые помогают людям с нарушениями слуха. Например, прибор, помогающий «слышать» с помощью кожи, и приложение, которое переводит в текст речь людей с сильным акцентом, заиканием и другими особенностями речи.

Изобретатель рассказал, как создал свой аппарат для чтения с губ, устроился в Google и помог разработать алгоритм для автоматического создания титров на YouTube.

Конструктор

В детстве я потерял слух. Но меня научили читать по губам, и я пошёл в обычную школу.

У меня было много друзей. Тогда я не испытывал больших сложностей в общении. Трудно стало, когда в восьмом классе я перешёл во вторую математическую школу в Москве. Там были другие ребята и сложные технологические предметы — учиться приходилось в основном по учебникам.

Тем не менее после школы я поступил в МГУ — в 1969 году, а потом ещё восемь лет учился математике и стал кандидатом наук, написав диссертацию по алгебраической геометрии.

Думаю, математика делала меня более независимым. В ней ты один на один с проблемой. Ты можешь сфокусироваться на ней, бороться с ней. Это соответствует моему характеру.

Заканчивая диссертацию, я встретил будущую жену. Она переезжала со своими родителями в Израиль, и я решил отправиться вслед за ней.

Я знал, что в новой стране не буду так же хорошо читать по губам, как в СССР, и не смогу свободно общаться с людьми. Тогда я разработал аппарат, который помогал читать с губ.

Прибор крепился на теле и позволял «слышать» кожей — улавливал звуки и переводил их в вибрации. Проблема была в том, что некоторые звуки, например «с», «ш», «и», «а», находятся на высоких частотах, поэтому их сложно почувствовать кожей. Тогда я придумал переводить высокие частоты в низкие.

Мне удалось сделать настолько маленький аппарат, что его под одеждой не замечали другие люди.

Я получил разрешение вывезти устройство в Израиль, и оно помогало мне говорить на иврите, в котором большое количество слов с «высокочастотными» звуками вроде «шабат», «шалом» и так далее.

В Израиле я показал аппарат одному доктору. Он сказал, что это великолепная вещь и нужно открыть компанию по продаже устройства.

Мы назвали её SensorAid, и параллельно с этим стартапом я ещё работал математиком в институте Вейцмана. В месяц я зарабатывал 2000 шекелей, это было в 1981 году.

Аппарат потом применяли во многих странах — он был универсален для всего мира. В одной больнице его сравнили с разработкой компании Cohler, которая вживляла передатчик в ухо человека, чтобы он мог считывать звуки.

Мой аппарат показал такой же результат, как у Cohler, но их разработка стоила $25 тысяч и требовала серьёзной операции, а мой вариант был в несколько раз дешевле и не требовал вмешательства хирургов.

В 1984 году американская компания Spectro выкупила авторские права на аппарат (сумму сделки Каневский назвать отказался — vc.ru). Сперва я отправился работать в академические институты в Германии и США, а после перешёл в IBM.

Работа в IBM

В начале работы я разработал алгоритм для распознавания речи.

Чтобы перевести речь в текст, системе требовалось считать акустический сигнал и сопоставить его со словом, которое он представляет.

Для этого звук представляется как последовательность чисел, которая сравнивается с каждым словом в словаре, используя некоторый критерий. Произнесённым считается слово, которое лучше всего согласовано с этой последовательностью чисел. Критерии — многочлены, которые состояли из 50 млн переменных, или параметров.

В 1990-е годы вычислять многочлены с 50 млн параметров за линейное время (временная сложность алгоритма, которая зависит от числа операций — vc.ru) позволяли методы динамического программирования.

Более совершенные критерии были основаны не на многочленах, а на рациональных функциях — отношениях многочленов. Для них долгое время не могли найти способ вычисления значений для 50 млн параметров в линейное время. А я нашёл этот метод. И когда его стали применять, точность распознавания речи значительно улучшилась.

Дмитрий Каневский на мероприятии AI in Action

Вместе с этим я постоянно работал над технологиями, которые помогали бы людям с нарушениями слуха. В то время появился интернет и с его помощью я создал первые в мире сервисы, которые помогали понимать речь.

Например, сервис, который позволял переводить устную речь в письменную. Для этого клиент звонил людям, умеющим быстро печатать, включал громкую связь, и они набирали текст, который слышали во время звонка.

Текст в реальном времени высвечивался на экране компьютера клиента, и тот понимал, о чём говорят рядом с ним. Такая услуга стоила до $120–150 в час.

Также я занимался изобретательством, не связанным с распознаванием речи.

Одна из таких технологий — Artificial Passenger (искусственный пассажир — vc.ru). Она помогала водителям не уснуть за рулём. Система наблюдала за человеком, разговаривала с ним, поэтому водитель, отвечая на вопросы, не засыпал.

Другая разработка касалась безопасности в банках. Чтобы подтвердить личность клиента, консультанты обычно просили назвать его имя матери или жены.

Я разработал систему, которая позволяла банку собирать больше информации о клиенте, чтобы сотрудники каждый раз могли задать новый вопрос. Например: «Как зовут вашу собаку?» или «Когда вы вернулись из отпуска?»

В это же время технология идентифицировала голос звонящего и проверяла, действительно ли он принадлежит клиенту банка. Если всё было в порядке и человек давал правильный ответ на вопрос, сотрудник банка понимал, что звонит не мошенник.

Распознавание речи для YouTube

В 2014 году я перешёл в Google, где продолжил работать над распознаванием речи.

Я занялся системой Closed Caption для YouTube, которая автоматически распознаёт речь на видео и переводит её в субтитры. В то время технология работала плохо, и мы с командой должны были улучшить её алгоритм.

Для создания акустических моделей слов (математических функций, основанных на фонемах — элементарных единицах речи — vc.ru) нам были нужны данные: тексты и их озвученные версии, чтобы обучить машину. Причём нужно, чтобы слова произносились разными голосами.

Ранее для этого нанимались люди, которые слушали и расшифровывали аудио в текст. Так набирались несколько тысяч часов примеров речи, что мало для хорошей системы распознавания.

YouTube интересен тем, что там огромное количество видео, где звук и текст уже имеются. Многие пользователи загружают на сайт видеоролики, в которые уже сами вшили субтитры с расшифровкой. Отчасти это делалось потому, что ролики с субтитрами поиск выдавал выше.

У меня появилась идея использовать для обучения алгоритмов сотни тысяч часов готовых данных от пользователей. Проблема была лишь в том, что люди часто делают не только ошибки в тексте, но и просто ставят в субтитры случайный набор букв, чтобы получить высокий ранг при поиске. Нам пришлось поставить фильтры, которые отличали качественные данные от плохих.

В итоге мы закончили разработку в 2016 году, и Closed Caption стала намного лучше распознавать речь. То, что видят пользователи сейчас, нажимая на автоматическое создание субтитров, — результат этой работы.

Проекты для людей с ограниченными возможностями

В 2017 году я перебрался из офиса Нью-Йорка в калифорнийское отделение Google.

Уже тут за полгода вместе с командой я создал приложение Live Transcribe, которое использует ту же технологию перевода речи в текст, что и YouTube, но в виде отдельного приложения. С помощью него люди с проблемами слуха могут узнать, что им говорят.

Система распознаёт и дополнительные звуки, о которых также пишет пользователю: лай собаки, плач ребёнка, звук гитары, стук в дверь, смех и так далее. Эта часть аудиоинформации обрабатывается на самом телефоне, а расшифровка прямой речи работает через интернет.

Один из главных создателей этого приложения — Чет Гнеги. Часто сотрудники Google разрабатывают проекты для решения проблем их коллег. Гнеги видел, как я использую сервисы, где люди печатают для меня речь, которую слышат, и решил помочь.

Он создал первый прототип приложения. Оно помогало нам работать вместе и в итоге выросло в отдельный проект Google под названием Live Transcribe.

Ещё один проект, в котором я участвую, — Euphonia. Это приложение для людей с нестандартной речью: тех, у кого есть БАС (заболевание, при котором поражается центральная нервная система — vc.ru), глухих, заикающихся, людей переживших инсульт.

Для этого проекта нам вновь нужно множество примеров нестандартной речи. Только в этот раз их не найти даже на YouTube. Такая речь очень индивидуальна, и здесь нужен другой подход для сбора данных.

Я сам надиктовал первые 25 часов записи. Я заранее писал доклады, с которыми планировал выступать, а потом записывал их в аудио. Так я тренировал систему. Я мог выступать, а зрители видели текстовую расшифровку моих докладов.

С каждым новым выступлением система всё лучше меня понимала и распознавала даже новые фразы. Сейчас мне уже не нужно писать доклады заранее — алгоритм переводит в текст абсолютно всё, что я говорю.

Так стало понятно, что этот подход работает, и мы начали приглашать людей с особенной речью тоже читать и записывать текст.

В случае с людьми с БАС мы начали работу с того, что дали им типичные фразы, которые они говорят, чтобы взаимодействовать, например, с Google Home. Им нужно повторить 100 фраз, чтобы натренировать систему под себя. Таким людям трудно разговаривать, и они быстро устают, поэтому мы не можем ждать от них большого количества записей.

Тем не менее постепенно мы начали объединять примеры речи разных людей с этим заболеванием, чтобы в будущем создать универсальную систему. Это медленный процесс — данных слишком мало, и Euphonia — всё ещё проект-исследование, а не готовый продукт.

Euphonia не требует соединения с интернетом, как в случае с Live Transcribe. У смартфонов небольшие вычислительные мощности, на которых сложно заниматься расшифровкой аудио. Однако команде удалось справиться с этим.

Многие люди боятся, что их данные обрабатываются через интернет. Если пользователь приходит к врачу, то и он, и врач переживают, что их диалог попадёт на удалённые серверы. Тут этого нет, потому что для Euphonia не нужно подключение к сети.

Сейчас мы даём ссылку, где люди с особенностями речи могут зарегистрироваться и оставить примеры своей речи. В некоторых случаях Google старается делать для них бесплатно индивидуальный распознаватель речи.

Также я работаю над проектом по распознаванию языка жестов. Здесь мы работаем с визуальной информацией. Эта задача ещё труднее, чем распознавание речи. Сейчас разработка находится на начальном этапе.

В языке жестов один жест может означать не отдельную букву, а целую фразу. И нам вновь нужно найти огромное количество примеров. По этому проекту мы сотрудничаем с Галлодетским университетом. В США это единственное высшее учебное заведение для слабослышащих и глухих.

Кроме этого я вернулся к идее своего прибора, который переводил высокие частоты в низкие. Мои коллеги работают над его новой версией, более современной, с помощью которой получится передавать больше информации.

Прототип прибора перевода высоких частот в низкие

Каждый год в Google проводится конкурс, где можно предложить идею, как помочь людям с ограниченными возможностями. Примерно один месяц в году сотрудники могут работать над этим проектом.

Потом они показывают идею, и Google отбирает лучшие. Например, четыре года назад выиграл проект, который помогал людям с трясущимися руками держать ложку, чтобы есть.

Дмитрий Каневский
{ "author_name": "Дарья Дейнека", "author_type": "editor", "tags": ["\u0438\u0441\u043a\u0443\u0441\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439\u0438\u043d\u0442\u0435\u043b\u043b\u0435\u043a\u0442","youtube","google"], "comments": 47, "likes": 147, "favorites": 91, "is_advertisement": false, "subsite_label": "future", "id": 94909, "is_wide": true, "is_ugc": false, "date": "Fri, 29 Nov 2019 13:25:57 +0300", "is_special": false }
Самый сильный бренд
страны*
*Третий год подряд по версии Brand Finance
0
{ "id": 94909, "author_id": 238904, "diff_limit": 1000, "urls": {"diff":"\/comments\/94909\/get","add":"\/comments\/94909\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/94909"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 199118, "last_count_and_date": null }
47 комментариев
Популярные
По порядку
Написать комментарий...
35

Очень интересный человек! Спасибо большое за статью.

Ответить

Комментарий удален

25

Во-во, лучше бы остался в России и строил новые ядерные ракеты, танки, автоматы и торпеды: больше пользы для человечества. 

Ответить
5

И роботов Борисов)

Ответить
–4

Строить нужно, но без фанатизма и это куда лучше чем очередной потреблядский гаджет. 

Ответить
15

Напишу банальнейшую вещь сейчас, но каждый из нас имеет право жить и работать в любой стране, где у него получится это сделать

Ответить
–3

Зачем ты это написал?

Ответить
1

Чтобы я получил плюсов, а ты - минусов. Всё просто и очевидно.

Ответить
1

Плюсик хочешь, детка? на, порадуйся.

Ответить
0

Да ладно, не будь бякой

Ответить
8

Все закономерно, верхушка предала идеалы социализма и все пошло по пизде, почему простой человек должен терпеть плохие условия жизни когда дети чиновников живут за границей, мне непонятно.

Ответить
–1

Большевики так же рассуждали.

Ответить
0

Да ему вроде и без идеалов социализма заебись

Ответить
2

//

В Израиле я показал аппарат одному доктору. Он сказал, что это великолепная вещь и нужно открыть компанию по продаже устройства.

Мы назвали её SensorAid, и параллельно с этим стартапом я ещё работал математиком в институте Вейцмана. В месяц я зарабатывал 2000 шекелей, это было в 1981 году.

Ответить
–6

У тебя в голове конечно бабло все определяет.

Ответить
0

тут акцент на том, что в 1981 году он уже устроился в другой стране

не благодари

Ответить
–5

тут это где? озвучиваешь свой внутренний диалог?

Ответить
5

везет же людям - я еще день не закончил, а они уже отдыхают

Ответить
–3

Вообще да, ты угадал. Ngapali Beach, Rakhine State, Myanmar.

Ответить
0

не можешь два коммента связать между собой?

Ответить
0

могу, если не бред написан

Ответить
–12

Не факт, что он советский человек. Родился при советах, это да. Но он еврей. И правильно сделал, что уехал. Ты просто не знаешь что такое быть нацменом среди русских.

Ответить
0

Можно подумать, другие советские люди, которые не евреи, могли в 1980 году уехать.

Ответить
1

Не понял о чем ты. Подумать можно что угодно.

Ответить
0

Не он еврей, жена решила ей стать. Даже не жена, а девушка поначалу.

Ответить
1

Как это решила стать еврейкой? Он за ней как мог уехать? Только по еврейской имиграции, которую в советах разрешили в 70х.

Ответить
0

Верно. Но до этого евреи в основном скрывали еврейство.

Ответить
0

С ума сошел? Некоторые известные брали псевдоним, типа Утесова, Бернеса, Плисецкой.

Но чтобы скрывали и в основном - это чушь просто. Как ты скроешь с фамилией Коган, Чухрай, Пельтцер, Плучек или Копелян.

Да и потом пятая грава же была. О чем тут вообще говорить? Удивительно откуда у вас такое мракобесие в головах. У одного изобр6етатели бежали от совфетской власти, у другого евреи скрывали национальность.
Это все от невежества.

В любой науке фундаментальные работы подписаны еврейскими фамилиями: Иоффе, Харитон, Капица, Книжник.
А лучший учебник русского языка за авторством Розенталя.

Ответить
5

Прощай, Стив Джобс, у меня новый кумир

Ответить
3

RESPECT

Ответить
3

Душевная статья

Ответить
2

Математики, объясните, откуда появляется многочлен с 50 млн параметров в задаче распознавания?

Ответить
1

Дарья, динамическое программирование означает рекуррентный спуск к подзадачам, а не что-то вроде адаптивного дизайна)

Ответить
2

Подскажите, что именно нужно поправить в тексте?)

Ответить
1

Есть значимая цель 🎯 = есть серьёзные достижения , возможности и в итоге деньги

Ответить
1

Побольше бы таких людей которые двигают вперёд прогресс

Ответить
–3

а как же Сколково?

Ответить
0

Когда он уезжал никаких Сколковых, Медведевых с инновациями и прочего не было.

Ответить
2

Были Дубна, Черноголовка, Академгородок

Ответить
0

А ещё была советская власть , без чьего позволения никакие разработки не могли получить финансирование. Это и многое другое вынуждало советский изобретателей бежать из страны.

Ответить
2

До-до-до. Советские изобретатели бежали от кровавой советской власти косяками. Это тебя в школе этому учили или сам выдумал?

Ответить
1

Ну конечно. В Высшей Школе Десоветизации им. Степана Бендеры

Ответить
–2

ненависть к Степану Бандере ватанам в мозг через дуроскоп вкачивают?

Ведь не Бандера организовывал концлагеря ГУЛАГа, например...

Ответить
2

вот ведь. что не скажи, хохлам на мозоль наступишь. этож шутка была. кто там вас ненавидит-то..

Ответить
1

 ненависть к Степану Бандере ватанам в мозг через дуроскоп вкачивают?

Через рассекреченные архивы ЦРУ США. Английский если осилишь можешь сам почитать, все в открытом доступе на официальном сайте лежит. Или туда по твоему мнению тоже ватаны проникли и они там американцам в мозги насрали? 

Ответить
0

Читается на одном дыхании, спасибо за статью! Именно то, чего так не хватает данному ресурсу!

Ответить

Комментарий удален

0

У интеллектуалов свои мимимишечки. Образцово-показательные разработки для вируальных инвалидов, спасение озонового слоя и полярных медведей, переход на светлую сторону Силы с лазерным мечом.

Ответить

Комментарий удален

0

Так вот кто ввел субтитры на ютубе! Спасибо ему огромное. И да, научиться читать по губам можно и самостоятельно. Я так сделала, потому что всё, что говорят совпадает с губами на 100%, но не всё разобрать можно. Поэтому глухие общаются на жестах.  

Ответить
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "Article Branding", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "cfovx", "p2": "glug" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Баннер в ленте на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "disable": true, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } }, { "id": 20, "label": "Кнопка в сайдбаре", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "cgxmr", "p2": "gnwc" } } } ] { "page_type": "default" }