Милые голосовые помощники и слежка за гражданами: чем занимается китайский разработчик iFlytek с капитализацией $10 млрд

Компания, начинавшая с автоматизации колл-центра Huawei, теперь обслуживает 700 млн клиентов и больше половины прибыли получает от правительственных контрактов. Пересказ материала Wired.

Милые голосовые помощники и слежка за гражданами: чем занимается китайский разработчик iFlytek с капитализацией $10 млрд

Предыстория

Джулиан Чен родился в 1937 году в Китае. В школе мальчик глубоко заинтересовался языками. Дома с семьей он разговаривал на шанхайском наречии, но изучал мандаринский китайский, английский, русский, следом занялся французским, немецким и японским.

В 1949-м к власти пришёл Мао Цзэдун, изучать иностранные языки стало опасно. В конце 1950-х интеллектуальную элиту Китая подвергали гонениям, ссылали в трудовые лагеря и даже казнили. Чена, который в то время был студентом, отправили работать на Пекинский стекольный завод.

После смерти Мао руководители партии поняли, что без умных людей невозможно развивать экономику, и Чену позволили продолжить обучение. В 1979 году, в возрасте 42 лет, он получил степень магистра и стал одним из немногих, кому разрешили выехать за границу.

Чен улетел в США и получил PhD по физике в Колумбийском университете. После он устроился на работу в IBM в отдел научных исследований. Компания разработала одну из первых программ для распознавания речи, чтобы специалисты могли диктовать текст, а не печатать его. В 1994 году её решили адаптировать под китайский язык, Чен предложил свои услуги. Ещё работая на заводе, он составил брошюру по этнографии пекинского наречия.

Чен сразу же осознал, насколько значимой программа будет для его родного языка в эпоху цифрового общения. Вместить 50 тысяч символов на клавиатуру невозможно, и в 1980-х программисты выкручивались с помощью пиньиня — романизированного китайского.

Чтобы написать слово «кот» (mao), пользователь писал буквы «m», «a» и «o» и затем выбирал иероглиф из выпадающего меню, в котором, помимо нужного ему 猫, были «торговля», «шляпа» и фамилия Мао.

Чтобы построить систему речевого ввода, Чен разбил мандаринский китайский на фонемы. Затем он попросил 54 китайцев, живущих в Нью-Йорке, прочитать несколько статей из газеты “People’s Daily” и записал их речь.

Исследовательская лаборатория в Пекине предоставила записи ещё 300 человек. В 1996 году Чен прилетел в Китай, чтобы презентовать программу ViaVoice на конференции по речевой технологии. Программу приняли с восторгом.

IBM рассказывает о ViaVoice в 1998 году. Ролик с таймкодом на Джулиане Чене

Вскоре производители ПК, даже конкуренты IBM, предустанавливали ViaVoice на устройства. У программы были свои минусы, но среди офисных сотрудников она приобрела невероятную популярность: вводить текст на китайском стало гораздо проще.

Многих местных учёных огорчило, что первый шаг во внедрении китайского в персональные компьютеры сделал исследователь, работающий на американскую компанию. Им казалось: необходимо создать нечто равное по эффективности в родной стране.

Появление iFlytek

Одним из таких исследователей был Лю Циньфэнь, 26-летний аспирант лаборатории распознавания речи в Университете науки и техники города Хэфей. В 1999 году он основал компанию голосовых технологий iFlytek.

Молодой Лю Циньфэнь <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DhYx38e8zagI&postId=130241" rel="nofollow noreferrer noopener" target="_blank">youtube.com</a>
Молодой Лю Циньфэнь youtube.com

Когда Лю поделился своими идеями с Ли Кайфу, тогда директором азиатского отдела исследований Microsoft. Он считал, что Китаю ни за что не догнать американские технологии распознавания речи. Тем более когда ей занимаются такие гиганты, как IBM и Microsoft. Но амбициозный Лю не послушал Кайфу.

iFlytek начинала как компания, занимавшаяся автоматизацией колл-центра Huawei. Работа оператора заменялась на меню, управляемое голосом («Чтобы оплатить, скажите “оплатить”»).

Компания вышла на биржу в 2008 году, в 2010-м представила iFlytek Input, свой первый продукт для широкого круга пользователей. Приложение преобразовывало речь в текст в любом приложении смартфона: электронной почте, браузере, даже в WeChat.

Как и любая технология на основе машинного обучения, iFlytek Input поначалу работало далеко не идеально. Но чем больше данных поступало, тем лучше справлялась система.

В 2012-м iFlytek выпустила виртуального помощника Yudian и направила обучение ИИ по иному пути: перевод в режиме реального времени.

Вскоре появились версии Input, которые умели не только переводить разговоры на 23 диалекта китайского и четыре иностранных языка, но и делать расшифровки телефонных разговоров. Эта функция в сочетании с количеством жителей дала компании возможность собирать огромное количество данных.

Соглашение о конфиденциальности iFlytek Input позволяет собирать и использовать личную информацию для «обеспечения национальной безопасности» без согласия пользователя.

На Западе существует проблема личных данных, но в Китае пользователь подписывает соглашение, после чего мы можем использовать его данные.

Цзюнь Ду, разработчик iFlytek Input

В 2017 году китайское правительство включило компанию в национальную группу по разработке ИИ. Также iFlytek договорилась о сотрудничестве с лабораторией компьютерных наук и искусственного интеллекта Массачусетского технологического университета.

Компания также заключила эксклюзивное соглашение на автоматический перевод для зимних Олимпийских игр в Пекине в 2022 году. По состоянию на середину апреля iFlytek оценивается в $10,8 млрд на Шэньчжэньской фондовой бирже. Компания заявляет, что занимает 70% китайского рынка голосовой связи и имеет 700 млн конечных пользователей.

Помимо этого, iFlytek выпускает планшеты и цифровые рекордеры, автоматически создающие мгновенные стенограммы. Голосовой помощник компании установлен в автомобилях по всей стране.

Основатель iFlytek рассуждает о будущем ИИ — на видео показаны и продукты компании

Несмотря на объём потребительских продуктов iFlytek, около 60% прибыли компания получает от проектов, которые в полугодовом отчёте за 2019 год описываются как «правительственные». К ним относятся «интеллектуальная система помощи уголовным расследованиям», а также обработка больших данных для правительства Шанхая.

Такие проекты предоставляют доступ к данным. «Среди данных могут быть записи судебных процессов, колл-центров, какая угодно информация, относящаяся к обеспечению безопасности», — отмечает Джеффри Динг, научный сотрудник Института будущего человечества Оксфордского университета и эксперт в области регулирования искусственного интеллекта в Китае.

Кампус iFlytek находится на окраине Хэфея, в этом городе на востоке страны располагается Научно-технический университет Китая. Почти половина из 11 тысяч сотрудников работают на охраняемой территории площадью более 125 тысяч м². У входа в офис — фотография Си Цзиньпина. На стенах, сувенирных товарах и дверях туалетов красуется лозунг «Улучшать мир с помощью искусственного интеллекта».

Представительница компании рассказала: вся продукция iFlytek должна делать жизнь удобнее и веселее, и эстетика фирмы соответствует девизу.

Например, детский робот-компаньон Alpha Egg разговаривает мультяшным голосом, виртуальный помощник водителя Flying Fish в рекламе выглядит как милая акула в подводной маске. Робот, которого компания продаёт больницам для помощи с запросами пациентов, напоминает нечто среднее между C-3PO и Евой, роботом из мультфильма «ВАЛЛ-И».

Alpha Egg побольше и поменьше
Alpha Egg побольше и поменьше

Коммунистическая партия Китая давно пытается контролировать речь граждан страны, напоминает Wired: как-то раз она даже запретила омофоны и другую игру слов в сети. Тогда недовольные переключились на запись видео с телефонов.

Впрочем, у iFlytek есть патент на систему, которая может обрабатывать большие объёмы видео и аудио и находить копии или репосты. В патенте указано, что такая функция «важна для информационной безопасности и мониторинга общественного мнения».

В 2012 году министерство общественной безопасности закупило у iFlytek голосовые устройства. В провинции Аньхой с их помощью составляют базу данных «голосовых отпечатков» — каталог речевых особенностей каждого жителя, который позволит властям идентифицировать говорящих по голосу.

Правозащитные организации вроде Human Rights Watch бьют тревогу в связи с работой iFlytek в регионах Китая.

По данным организации, технология iFlytek помогает контролировать население региона Синьцзян, там живут преимущественно мусульмане-уйгуры. Местных жителей заставляют устанавливать приложения, которые следят за перемещением, предоставлять биометрические данные на контрольно-пропускных пунктах и проходить «культурные инспекции».

Строже всего контролируют город Кашгар. В 2016 году полиция города заключила контракт с «дочкой» iFlytek на покупку 25 спектрограммных терминалов. Согласно договору, технология используется для сбора образцов речи, включаемых в биометрическое досье наряду с фотографиями, отпечатками пальцев и образцами ДНК.

88
5 комментариев

Китай скоро станет киберпанк муравейником.

2

Полное нарушения прав личной жизни людей ....дойдёт и до Росси 100% а те к о окажутся , будут в не милости .

1

реприции целого народа  - куда катиться мир ?

Будущее не за горами ... Китай Сингапур , там дети с малых лет учатся развивать нано технологии ...

Если они использую систему в Синьцзяне, то это означает что в мире существует технология распознования уйгурского языка. У нации без своей страны...