{"id":14262,"url":"\/distributions\/14262\/click?bit=1&hash=8ff33b918bfe3f5206b0198c93dd25bdafcdc76b2eaa61d9664863bd76247e56","title":"\u041f\u0440\u0435\u0434\u043b\u043e\u0436\u0438\u0442\u0435 \u041c\u043e\u0441\u043a\u0432\u0435 \u0438\u043d\u043d\u043e\u0432\u0430\u0446\u0438\u044e \u0438 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u0435 \u0434\u043e 1,5 \u043c\u043b\u043d \u0440\u0443\u0431\u043b\u0435\u0439","buttonText":"\u041f\u043e\u0434\u0440\u043e\u0431\u043d\u0435\u0435","imageUuid":"726c984a-5b07-5c75-81f7-6664571134e6"}

Потерявший слух советский математик устроился в Google, чтобы помочь другим людям с нарушениями слуха и речи Статьи редакции

Дмитрий Каневский разрабатывает продукты, которые помогают людям общаться с близкими, коллегами, мобильными устройствами и целым миром.

​Дмитрий Каневский на мероприятии AI in Action

Тем не менее он научился читать по губам, закончил МГУ, стал кандидатом наук, переехал в США и сейчас работает исследователем в Google.

Последние 40 лет он разрабатывает устройства и технологии, которые помогают людям с нарушениями слуха. Например, прибор, помогающий «слышать» с помощью кожи, и приложение, которое переводит в текст речь людей с сильным акцентом, заиканием и другими особенностями речи.

Изобретатель рассказал, как создал свой аппарат для чтения с губ, устроился в Google и помог разработать алгоритм для автоматического создания титров на YouTube.

Конструктор

В детстве я потерял слух. Но меня научили читать по губам, и я пошёл в обычную школу.

У меня было много друзей. Тогда я не испытывал больших сложностей в общении. Трудно стало, когда в восьмом классе я перешёл во вторую математическую школу в Москве. Там были другие ребята и сложные технологические предметы — учиться приходилось в основном по учебникам.

Тем не менее после школы я поступил в МГУ — в 1969 году, а потом ещё восемь лет учился математике и стал кандидатом наук, написав диссертацию по алгебраической геометрии.

Думаю, математика делала меня более независимым. В ней ты один на один с проблемой. Ты можешь сфокусироваться на ней, бороться с ней. Это соответствует моему характеру.

Заканчивая диссертацию, я встретил будущую жену. Она переезжала со своими родителями в Израиль, и я решил отправиться вслед за ней.

Я знал, что в новой стране не буду так же хорошо читать по губам, как в СССР, и не смогу свободно общаться с людьми. Тогда я разработал аппарат, который помогал читать с губ.

Прибор крепился на теле и позволял «слышать» кожей — улавливал звуки и переводил их в вибрации. Проблема была в том, что некоторые звуки, например «с», «ш», «и», «а», находятся на высоких частотах, поэтому их сложно почувствовать кожей. Тогда я придумал переводить высокие частоты в низкие.

Мне удалось сделать настолько маленький аппарат, что его под одеждой не замечали другие люди.

Я получил разрешение вывезти устройство в Израиль, и оно помогало мне говорить на иврите, в котором большое количество слов с «высокочастотными» звуками вроде «шабат», «шалом» и так далее.

В Израиле я показал аппарат одному доктору. Он сказал, что это великолепная вещь и нужно открыть компанию по продаже устройства.

Мы назвали её SensorAid, и параллельно с этим стартапом я ещё работал математиком в институте Вейцмана. В месяц я зарабатывал 2000 шекелей, это было в 1981 году.

Аппарат потом применяли во многих странах — он был универсален для всего мира. В одной больнице его сравнили с разработкой компании Cohler, которая вживляла передатчик в ухо человека, чтобы он мог считывать звуки.

Мой аппарат показал такой же результат, как у Cohler, но их разработка стоила $25 тысяч и требовала серьёзной операции, а мой вариант был в несколько раз дешевле и не требовал вмешательства хирургов.

В 1984 году американская компания Spectro выкупила авторские права на аппарат (сумму сделки Каневский назвать отказался — vc.ru). Сперва я отправился работать в академические институты в Германии и США, а после перешёл в IBM.

Работа в IBM

В начале работы я разработал алгоритм для распознавания речи.

Чтобы перевести речь в текст, системе требовалось считать акустический сигнал и сопоставить его со словом, которое он представляет.

Для этого звук представляется как последовательность чисел, которая сравнивается с каждым словом в словаре, используя некоторый критерий. Произнесённым считается слово, которое лучше всего согласовано с этой последовательностью чисел. Критерии — многочлены, которые состояли из 50 млн переменных, или параметров.

В 1990-е годы вычислять многочлены с 50 млн параметров за линейное время (временная сложность алгоритма, которая зависит от числа операций — vc.ru) позволяли методы динамического программирования.

Более совершенные критерии были основаны не на многочленах, а на рациональных функциях — отношениях многочленов. Для них долгое время не могли найти способ вычисления значений для 50 млн параметров в линейное время. А я нашёл этот метод. И когда его стали применять, точность распознавания речи значительно улучшилась.

Дмитрий Каневский на мероприятии AI in Action

Вместе с этим я постоянно работал над технологиями, которые помогали бы людям с нарушениями слуха. В то время появился интернет и с его помощью я создал первые в мире сервисы, которые помогали понимать речь.

Например, сервис, который позволял переводить устную речь в письменную. Для этого клиент звонил людям, умеющим быстро печатать, включал громкую связь, и они набирали текст, который слышали во время звонка.

Текст в реальном времени высвечивался на экране компьютера клиента, и тот понимал, о чём говорят рядом с ним. Такая услуга стоила до $120–150 в час.

Также я занимался изобретательством, не связанным с распознаванием речи.

Одна из таких технологий — Artificial Passenger (искусственный пассажир — vc.ru). Она помогала водителям не уснуть за рулём. Система наблюдала за человеком, разговаривала с ним, поэтому водитель, отвечая на вопросы, не засыпал.

Другая разработка касалась безопасности в банках. Чтобы подтвердить личность клиента, консультанты обычно просили назвать его имя матери или жены.

Я разработал систему, которая позволяла банку собирать больше информации о клиенте, чтобы сотрудники каждый раз могли задать новый вопрос. Например: «Как зовут вашу собаку?» или «Когда вы вернулись из отпуска?»

В это же время технология идентифицировала голос звонящего и проверяла, действительно ли он принадлежит клиенту банка. Если всё было в порядке и человек давал правильный ответ на вопрос, сотрудник банка понимал, что звонит не мошенник.

Распознавание речи для YouTube

В 2014 году я перешёл в Google, где продолжил работать над распознаванием речи.

Я занялся системой Closed Caption для YouTube, которая автоматически распознаёт речь на видео и переводит её в субтитры. В то время технология работала плохо, и мы с командой должны были улучшить её алгоритм.

Для создания акустических моделей слов (математических функций, основанных на фонемах — элементарных единицах речи — vc.ru) нам были нужны данные: тексты и их озвученные версии, чтобы обучить машину. Причём нужно, чтобы слова произносились разными голосами.

Ранее для этого нанимались люди, которые слушали и расшифровывали аудио в текст. Так набирались несколько тысяч часов примеров речи, что мало для хорошей системы распознавания.

YouTube интересен тем, что там огромное количество видео, где звук и текст уже имеются. Многие пользователи загружают на сайт видеоролики, в которые уже сами вшили субтитры с расшифровкой. Отчасти это делалось потому, что ролики с субтитрами поиск выдавал выше.

У меня появилась идея использовать для обучения алгоритмов сотни тысяч часов готовых данных от пользователей. Проблема была лишь в том, что люди часто делают не только ошибки в тексте, но и просто ставят в субтитры случайный набор букв, чтобы получить высокий ранг при поиске. Нам пришлось поставить фильтры, которые отличали качественные данные от плохих.

В итоге мы закончили разработку в 2016 году, и Closed Caption стала намного лучше распознавать речь. То, что видят пользователи сейчас, нажимая на автоматическое создание субтитров, — результат этой работы.

Проекты для людей с ограниченными возможностями

В 2017 году я перебрался из офиса Нью-Йорка в калифорнийское отделение Google.

Уже тут за полгода вместе с командой я создал приложение Live Transcribe, которое использует ту же технологию перевода речи в текст, что и YouTube, но в виде отдельного приложения. С помощью него люди с проблемами слуха могут узнать, что им говорят.

Система распознаёт и дополнительные звуки, о которых также пишет пользователю: лай собаки, плач ребёнка, звук гитары, стук в дверь, смех и так далее. Эта часть аудиоинформации обрабатывается на самом телефоне, а расшифровка прямой речи работает через интернет.

Один из главных создателей этого приложения — Чет Гнеги. Часто сотрудники Google разрабатывают проекты для решения проблем их коллег. Гнеги видел, как я использую сервисы, где люди печатают для меня речь, которую слышат, и решил помочь.

Он создал первый прототип приложения. Оно помогало нам работать вместе и в итоге выросло в отдельный проект Google под названием Live Transcribe.

Ещё один проект, в котором я участвую, — Euphonia. Это приложение для людей с нестандартной речью: тех, у кого есть БАС (заболевание, при котором поражается центральная нервная система — vc.ru), глухих, заикающихся, людей переживших инсульт.

Для этого проекта нам вновь нужно множество примеров нестандартной речи. Только в этот раз их не найти даже на YouTube. Такая речь очень индивидуальна, и здесь нужен другой подход для сбора данных.

Я сам надиктовал первые 25 часов записи. Я заранее писал доклады, с которыми планировал выступать, а потом записывал их в аудио. Так я тренировал систему. Я мог выступать, а зрители видели текстовую расшифровку моих докладов.

С каждым новым выступлением система всё лучше меня понимала и распознавала даже новые фразы. Сейчас мне уже не нужно писать доклады заранее — алгоритм переводит в текст абсолютно всё, что я говорю.

Так стало понятно, что этот подход работает, и мы начали приглашать людей с особенной речью тоже читать и записывать текст.

В случае с людьми с БАС мы начали работу с того, что дали им типичные фразы, которые они говорят, чтобы взаимодействовать, например, с Google Home. Им нужно повторить 100 фраз, чтобы натренировать систему под себя. Таким людям трудно разговаривать, и они быстро устают, поэтому мы не можем ждать от них большого количества записей.

Тем не менее постепенно мы начали объединять примеры речи разных людей с этим заболеванием, чтобы в будущем создать универсальную систему. Это медленный процесс — данных слишком мало, и Euphonia — всё ещё проект-исследование, а не готовый продукт.

Euphonia не требует соединения с интернетом, как в случае с Live Transcribe. У смартфонов небольшие вычислительные мощности, на которых сложно заниматься расшифровкой аудио. Однако команде удалось справиться с этим.

Многие люди боятся, что их данные обрабатываются через интернет. Если пользователь приходит к врачу, то и он, и врач переживают, что их диалог попадёт на удалённые серверы. Тут этого нет, потому что для Euphonia не нужно подключение к сети.

Сейчас мы даём ссылку, где люди с особенностями речи могут зарегистрироваться и оставить примеры своей речи. В некоторых случаях Google старается делать для них бесплатно индивидуальный распознаватель речи.

Также я работаю над проектом по распознаванию языка жестов. Здесь мы работаем с визуальной информацией. Эта задача ещё труднее, чем распознавание речи. Сейчас разработка находится на начальном этапе.

В языке жестов один жест может означать не отдельную букву, а целую фразу. И нам вновь нужно найти огромное количество примеров. По этому проекту мы сотрудничаем с Галлодетским университетом. В США это единственное высшее учебное заведение для слабослышащих и глухих.

Кроме этого я вернулся к идее своего прибора, который переводил высокие частоты в низкие. Мои коллеги работают над его новой версией, более современной, с помощью которой получится передавать больше информации.

Прототип прибора перевода высоких частот в низкие

Каждый год в Google проводится конкурс, где можно предложить идею, как помочь людям с ограниченными возможностями. Примерно один месяц в году сотрудники могут работать над этим проектом.

Потом они показывают идею, и Google отбирает лучшие. Например, четыре года назад выиграл проект, который помогал людям с трясущимися руками держать ложку, чтобы есть.

Дмитрий Каневский
0
49 комментариев
Написать комментарий...
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Vi Bro

Во-во, лучше бы остался в России и строил новые ядерные ракеты, танки, автоматы и торпеды: больше пользы для человечества. 

Ответить
Развернуть ветку
Андрей Викторович

И роботов Борисов)

Ответить
Развернуть ветку
Alexey P

Строить нужно, но без фанатизма и это куда лучше чем очередной потреблядский гаджет. 

Ответить
Развернуть ветку
Николай

Напишу банальнейшую вещь сейчас, но каждый из нас имеет право жить и работать в любой стране, где у него получится это сделать

Ответить
Развернуть ветку
Egoro Bu

Зачем ты это написал?

Ответить
Развернуть ветку
Николай

Чтобы я получил плюсов, а ты - минусов. Всё просто и очевидно.

Ответить
Развернуть ветку
Egoro Bu

Плюсик хочешь, детка? на, порадуйся.

Ответить
Развернуть ветку
Николай

Да ладно, не будь бякой

Ответить
Развернуть ветку
Oleg Marchuk

Все закономерно, верхушка предала идеалы социализма и все пошло по пизде, почему простой человек должен терпеть плохие условия жизни когда дети чиновников живут за границей, мне непонятно.

Ответить
Развернуть ветку
Egoro Bu

Большевики так же рассуждали.

Ответить
Развернуть ветку
Виктор Бражников

Да ему вроде и без идеалов социализма заебись

Ответить
Развернуть ветку
Сергей Токарев

//

В Израиле я показал аппарат одному доктору. Он сказал, что это великолепная вещь и нужно открыть компанию по продаже устройства.

Мы назвали её SensorAid, и параллельно с этим стартапом я ещё работал математиком в институте Вейцмана. В месяц я зарабатывал 2000 шекелей, это было в 1981 году.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Konstantin Ivanov

тут акцент на том, что в 1981 году он уже устроился в другой стране

не благодари

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Сергей Токарев

везет же людям - я еще день не закончил, а они уже отдыхают

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Egoro Bu

Не факт, что он советский человек. Родился при советах, это да. Но он еврей. И правильно сделал, что уехал. Ты просто не знаешь что такое быть нацменом среди русских.

Ответить
Развернуть ветку
kilyazov

Не он еврей, жена решила ей стать. Даже не жена, а девушка поначалу.

Ответить
Развернуть ветку
Egoro Bu

Как это решила стать еврейкой? Он за ней как мог уехать? Только по еврейской имиграции, которую в советах разрешили в 70х.

Ответить
Развернуть ветку
kilyazov

Верно. Но до этого евреи в основном скрывали еврейство.

Ответить
Развернуть ветку
Egoro Bu

С ума сошел? Некоторые известные брали псевдоним, типа Утесова, Бернеса, Плисецкой.

Но чтобы скрывали и в основном - это чушь просто. Как ты скроешь с фамилией Коган, Чухрай, Пельтцер, Плучек или Копелян.

Да и потом пятая грава же была. О чем тут вообще говорить? Удивительно откуда у вас такое мракобесие в головах. У одного изобр6етатели бежали от совфетской власти, у другого евреи скрывали национальность.
Это все от невежества.

В любой науке фундаментальные работы подписаны еврейскими фамилиями: Иоффе, Харитон, Капица, Книжник.
А лучший учебник русского языка за авторством Розенталя.

Ответить
Развернуть ветку
kilyazov

Я сталкивался с сокрытием своего еврейства даже детьми в средней школе. Это была середина 1970-х (!). Так что можно предположить, как оно было еще раньше.

Ответить
Развернуть ветку
Egoro Bu

То что ребенок не рассказывал о своей национальности не повод утверждать, что "евреи в основном скрывали еврейство". Кроме того, еврейство считается только по матери. Может он и не был евреем, а просто не хотел унижений.

Ответить
Развернуть ветку
kilyazov

Вы рассказали про ученых, а я про свой личный опыт. И ребенок не "не рассказывал", а заплакал на мой любопытный вопрос: "Жанна, ты еврейка?"
Вы плачете, если вас спрашивают о национальности? :)
А что лицам с неправильными фамилиями и неправильными национальностями в паспорте или свидетельстве о рождении ограничивали доступ к учебе, вакансиях и прочем - тоже сказки? Я тоже не знал, пока не узнал от таких лиц и их родственников.

Ответить
Развернуть ветку
Egoro Bu

Вы вообще о чем говорите?

Ответить
Развернуть ветку
Egoro Bu

Логичное завершение беседы.

Ответить
Развернуть ветку
symbix

Можно подумать, другие советские люди, которые не евреи, могли в 1980 году уехать.

Ответить
Развернуть ветку
Egoro Bu

Не понял о чем ты. Подумать можно что угодно.

Ответить
Развернуть ветку
Макс Сысоев

Прощай, Стив Джобс, у меня новый кумир

Ответить
Развернуть ветку
Feduard Klimkin

RESPECT

Ответить
Развернуть ветку
Дмитрий Алмазов

Душевная статья

Ответить
Развернуть ветку
Виктор Бражников

Математики, объясните, откуда появляется многочлен с 50 млн параметров в задаче распознавания?

Ответить
Развернуть ветку
one you follow

Видать, многочлены Чебышева, они естественно возникают при работе с периодическими сигналами:

Back in the 19th century, Pafnuty Chebyshev discovered a set of polynomials known as the Chebyshev polynomials. Mathematicians like them for lots of different reasons, but computer musicians like them because they can be used to make weird noises, er, we mean music. These Chebyshev polynomials have the property that if you input a sine wave of amplitude 1.0, you get out a sine wave whose frequency is N times the frequency of the input wave. So, they are like frequency multipliers. 

Можно нагуглить много старых работ по словам speech recognition polynomial.

Ответить
Развернуть ветку
Камаз Узбеков

Дарья, динамическое программирование означает рекуррентный спуск к подзадачам, а не что-то вроде адаптивного дизайна)

Ответить
Развернуть ветку
Дарья Дейнека
Автор

Подскажите, что именно нужно поправить в тексте?)

Ответить
Развернуть ветку
Alex

Читается на одном дыхании, спасибо за статью! Именно то, чего так не хватает данному ресурсу!

Ответить
Развернуть ветку
vic buynoff

У интеллектуалов свои мимимишечки. Образцово-показательные разработки для вируальных инвалидов, спасение озонового слоя и полярных медведей, переход на светлую сторону Силы с лазерным мечом.

Ответить
Развернуть ветку
Павел Камышев

Есть значимая цель 🎯 = есть серьёзные достижения , возможности и в итоге деньги

Ответить
Развернуть ветку
Oleg Nazaruk

Побольше бы таких людей которые двигают вперёд прогресс

Ответить
Развернуть ветку
Вечный Студент

а как же Сколково?

Ответить
Развернуть ветку
Антон Фомин

Когда он уезжал никаких Сколковых, Медведевых с инновациями и прочего не было.

Ответить
Развернуть ветку
Egoro Bu

Были Дубна, Черноголовка, Академгородок

Ответить
Развернуть ветку
Антон Фомин

А ещё была советская власть , без чьего позволения никакие разработки не могли получить финансирование. Это и многое другое вынуждало советский изобретателей бежать из страны.

Ответить
Развернуть ветку
Egoro Bu

До-до-до. Советские изобретатели бежали от кровавой советской власти косяками. Это тебя в школе этому учили или сам выдумал?

Ответить
Развернуть ветку
Антон Фомин

Ну конечно. В Высшей Школе Десоветизации им. Степана Бендеры

Ответить
Развернуть ветку
Вечный Студент

ненависть к Степану Бандере ватанам в мозг через дуроскоп вкачивают?

Ведь не Бандера организовывал концлагеря ГУЛАГа, например...

Ответить
Развернуть ветку
Egoro Bu

вот ведь. что не скажи, хохлам на мозоль наступишь. этож шутка была. кто там вас ненавидит-то..

Ответить
Развернуть ветку
Denis Vasilev
 ненависть к Степану Бандере ватанам в мозг через дуроскоп вкачивают?

Через рассекреченные архивы ЦРУ США. Английский если осилишь можешь сам почитать, все в открытом доступе на официальном сайте лежит. Или туда по твоему мнению тоже ватаны проникли и они там американцам в мозги насрали? 

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку
MILAN

Так вот кто ввел субтитры на ютубе! Спасибо ему огромное. И да, научиться читать по губам можно и самостоятельно. Я так сделала, потому что всё, что говорят совпадает с губами на 100%, но не всё разобрать можно. Поэтому глухие общаются на жестах.  

Ответить
Развернуть ветку
Murat Oshroev

Молодец, что уехал. В России не совсем понятно, что с ним стало бы

Ответить
Развернуть ветку
46 комментариев
Раскрывать всегда