{"id":14270,"url":"\/distributions\/14270\/click?bit=1&hash=a51bb85a950ab21cdf691932d23b81e76bd428323f3fda8d1e62b0843a9e5699","title":"\u041b\u044b\u0436\u0438, \u043c\u0443\u0437\u044b\u043a\u0430 \u0438 \u0410\u043b\u044c\u0444\u0430-\u0411\u0430\u043d\u043a \u2014 \u043d\u0430 \u043e\u0434\u043d\u043e\u0439 \u0433\u043e\u0440\u0435","buttonText":"\u041d\u0430 \u043a\u0430\u043a\u043e\u0439?","imageUuid":"f84aced9-2f9d-5a50-9157-8e37d6ce1060"}

Искусственный интеллект и большие данные ВКонтакте от первого лица. Интервью с Павлом Калайдиным (видео и тезисы)

Как ВКонтакте использует машинное обучение для автоматизации работы службы поддержки? Зачем и как соцсеть научила свои алгоритмы различать хентай и аниме? Как строятся исследования в области ИИ в принципе? И даже - какое аниме вам точно нужно посмотреть? Мы поговорили с Павлом Калайдиным, директором по исследованиям Вконтакте. Публикуем видео и тезисную расшифровку разговора.

Интервью вёл Роман Нестер, руководитель магистратуры “Коммуникации, основанные на данных” НИУ ВШЭ, со-основатель big data компании Segmento. В цикле “Большие данные больших компаний” мы также говорили с МТС, Сбербанком, Waay, ВКонтакте. Видео и расшифровки этих встреч мы вскоре публикуем на нашем канале и здесь на VC. Для удобства к этой расшифровке добавлены таймкоды видео - так вы сможете легко найти полную версию ответа.

Чем ты занимаешься в ВК?

Я - директор по исследованиям в области ИИ. Последние два года я руковожу подразделением, которое называется "Команда прикладных исследований". До запуска нашего подразделения, машинное обучение во ВКонтакте в основном применялось для ранжирования выдачи постов в ленте новостей. Мы расширили его применение. Цель нашей команды формулируется в целом как “разработка новых технологий”.

Как big data изменила ВК?

Благодаря машинному обучению нам удалось автоматизировать и ускорить ответы “агентов” поддержки. Всегда есть срочные вопросы и те, которые не требуют мгновенной реакции. Но чтобы понять это, их сначала нужно прочесть. Это тормозит работу агентов. Мы научились мгновенно распознавать вопросы и отвечать на часть из них. Благоларя этому нам удалось значительно сократить время ожидания ответа пользователем - теперь к агентам попадают уже отсортированные запросы. Также мы внедрили такую разработку, как подсвечивание определенных фрагментов текста вопроса для работников техподдержки - благодаря этому они могут быстрее определиться с ответом, не читая весь текст.

Всё это помогло лучше сортировать информацию и расставлять приоритеты. Все-таки цель агентов поддержки - отвечать быстро на сложные вопросы, а простые - откладывать на потом.

Другая задача - фильтрация контента в поиске, в особенности в “безопасном”. Благодаря нашей работе ВК сумел проводить более-менее четкое различие между эротикой и порнографией, что помогло продвинуться в скрытии из безопасного поиска NSFW-контента. Проблема была с выделением хентая - японского порнографического жанра. Но в аниме-материалах, которых много, могут встречаться сцены эротики. Нельзя вырезать всё скопом. Мы построили специальный классификатор, который научился разделять эти два понятия.

Еще одной разработкой стал алгоритм, позволяющий отслеживать "токсичные" посты с обилием оскорблений. Есть определенный набор фраз-тегов, благодаря которому фильтруется информация. Наличие в посте тех или иных фраз и формулировок определяют вероятность того, что текст относится к категории "токсичных" и его нужно скрыть.

Правда, и здесь возникают определенные трудности, потому что иногда под фильтр попадают слова, которые сами по себе не являются оскорбительными, но часто используются в подобных постах. Работа, нацеленная на совершенствование алгоритма, как раз и заключается в том, чтобы минимизировать подобные ошибки.

Как можно измерить пользу от ваших технологий в деньгах? Есть ли вообще с этим проблема, ведь работу ИИ не так просто “оцифровать”.

У команды стоит задача предложить применение машинного обучения, но у нас нет цели как-то непременно экономически это обосновать. Мы не ищем прямого пути увеличить прибыль, а разрабатываем технологии. Мы придумываем, как именно можно улучшить и развить саму платформу и затем сообщаем об этом командам разработчиков. Дальше уже их задача это внедрить или отбросить и на их этапе происходит оценка.

Чем занимается лаборатория ИИ Вконтакте?

Лаборатория - это учреждение на Физтехе МФТИ. Там сейчас работает пять человек, включая меня. У нас есть кураторы в ВК, совместно с которыми мы обсуждаем, какие именно направления им интересно продвигать.

Потом происходит распределение - решается, кто над каким направлением будет работать, и в течение года человек этим занимается. Итогом его работы становится научная статья, которую он отсылает кураторам на ревью.

Будущее профессий: кто исчезнет и почему?

Исчезнут прежде всего те профессии, которые легко автоматизировать, как это произошло, например, в случае с профессией машинистки. Вполне возможно, автоматизация в будущем затронет услуги транспорта и грузовых перевозок - таксисты и дальнобойщики из-за автоматизации больше не будут нужны, нужен будет только человек, который мог бы следить дистанционно за работой средств транспорта.

Цифровые зависимости, этика и ответственность соцсетей

Сейчас на Западе активно развивается идеология противодействия навязыванию пользователям потребления больших объемов развлекательного контента. Смартфоны затягивают людей и тянут всё глубже. Как ты, работая в огромной соцсети - поедателе времени - сам относишься к этому и появится ли у нас такое в России?

Думаю, такое направление, идеология будет развиваться и у нас. Но с точки зрения бизнеса и гораздо разумнее не бороться с этим движением, а помогать - предоставить пользователю рычаги, посредством которых он может бороться с информационным потребительством. Такие рычаги уже предоставляются сайтами - например, пуш-уведомления всегда можно (и нужно) отключить. По моему мнению, надо не стремится запрещать развлекательный контент, лучше потратить усилия для создания условий к тому, чтобы пользователю было интереснее смотреть вещи, связанные с образованием.

Как относишься к довольно популярной футурологической концепции “цифровых двойников”?

Эта идея будет реализована еще очень нескоро. Но понятное дело, что на протяжении ближайших лет человеческое общение все чаще и чаще будет осуществляться посредством сети, и живое общение по этой причине будет казаться чем-то довольно интимным, даже роскошью. Однако в целом, что касается цифровых двойников, тут возникают понятные этические препятствия для реализации концепта - ведь далеко не все пользователи захотят предоставлять в достаточном объеме информацию о себе.

Ведь если какой-то человек будет иметь возможность общаться с твоим “двойником” без твоего ведома и контроля, он сможет многое про тебя узнать и затем использовать. Вообще же в нашем сообществе тема цифровых двойников не особо обсуждается по той причине, что для реализации таких идей должно пройти еще много лет. А машинное обучение направлено на конкретные задачи

Когда мы приблизимся в разработках к “человекоподобному” General AI?

Это сверхтрудно спрогнозировать. Возможно, сегодня с у нас просто нет достаточных ресурсов для того, чтобы совершить какой-то радикальный прорыв в данном направлении. В 80-ых и 90-ых годах, например, уже были крутые решения в области машинного обучения, но тогда еще не было нужного количества данных и отсутствовала нужная инфраструктура, чтобы создать сложные нейросети. Когда же все это появилось, то нейросети, придуманные за 20 лет до этого, стали стремительно развиваться.

Какой условный срок ты бы все-таки назвал?

Моя ставка - 50 лет. Этому будет предшествовать развитие нейросетей, реализующих частные задачи - например, автоматизация транспорта, полеты беспилотников. Но при этом возможно, что еще до создания мощного искусственного интеллекта, произойдет симбиоз искусственного и естественного интеллекта (как пример - вживление чипа, позволяющего эффективнее мыслить, в человеческий мозг,).

Где происходит главный движ в области искусственного интеллекта?

Это крупные американские компании (прежде всего Google), а также университеты - Стенфорд, Беркли.

А китайские вузы этим занимаются?

Скорее, китайские компании - Aliexpress, Alibaba.

Где в России занимаются ИИ?

В России это тоже больше сосредоточено в крупных компаниях, либо в рамках отдельных вузов. В МФТИ есть мощные лаборотории. Я ещё отмечу Сколковский институт науки и технологий.

Ник Бостром в своей книге "Искусственный интеллект" утверждает, что в какой-то момент разработка ИИ может начать развиваться непредсказуемо быстро. То есть мы сами не можем предугадать, в какой момент и где именно произойдет прорыв, и если это случится, то какая-то одна компания может получить значительное преимущество перед всем миром и использовать это не в добрых целях. Может ли такое произойти?

Конечно, может. Как это произошло, например, с ядерным оружием. Однако мне кажется, что сейчас информация распространяется очень быстро и поэтому сложно будет одной компании втайне получить значительное преимущество над другими. Скорее всего, все однажды поймут, что кто-то явно приближается к какому-то прорыву. Ведь происходит активный происходит обмен технологиями.

Что вообще скажешь о перспективах России в области исследований ИИ?

У нас есть очень сильные команды, но попросту не хватает ресурсов для полноценного развития искусственного интеллекта.

Мы говорили с тобой про технологию расшифровку аудиосообщений в переписках в текст. Как и где собирали данные для обучающей выборки? На основе какого объема делали модели, сколько человек и часов записей?

У нас есть крутая программа бета-тестирования - в неё записано 100 000 человек, которые участвуют в тестировании наших продуктов. Мы попросили их сделать аудиозаписи - получили около 100 миллионов. При обучении мы использовали технологию unsupervised learning. В настоящий момент мы c помощью этой разработки успешно исправляем многие ошибки, связанные с именами, географическими наименованиями, английскими словами в русской речи.

Разработчикам, занимающимся Big Data, постоянно приходится обучаться по различным направлениям. Как учиться эффективно? Какие ресурсы для этого использовать? Где получать знания?

Одного эффективного способа - нет. А вообще, хороших результатов не добиться в одиночку, вне команды. Нужно уметь работать в коллективе. И именно по этой причине я верю в классическое офлайновое высшее образование, в лаборатории, в совместное решение задач - благодаря ему ты сможешь обмениваться идеями с большим количеством людей, работающих в твоей сфере, продуктивно их обсуждать, запускать совместные проекты.

Взять пример того, как я сам оказался в Сегменто и занялся машинным обучением в рекламе - мы нашли друг друга с Женей Лёгким именно потому, что в своё время учились вместе и понимали друг друга.

Как написать пост в соцсети, чтобы он был в топе ленты?

Я могу только предполагать про другие сети. Если мы берем фейсбук, то наверняка не стоит в посте давать ссылок на сторонние ресурсы. Наверняка алгоритм сделает такой пост менее приоритетным - по крайней мере я бы сделал именно так. Плюс там должна быть картинка и он не должен быть большим по объему. Нужна краткость. Также стоит избегать различных призывов - например, к лайкам и репостам. Помимо всего прочего, необходимо, чтобы пост резонировал именно с вашей аудиторией.

Можно ли парсить данные ВК? Это же открытые данные.

Это так не работает. Если в интернете 2020 года есть открытые данные, то это не значит, что их можно парсить. В правилах ВК написано, что парсинг и автоматический сбор данных запрещен без согласования администрации. Можно строить сервисы, пользоваться API, но парсить - нет. Но мы не просто запрещаем - у нас есть стриминг-API и можно подписаться на предзаданный поток данных. Так же действует и Фейсбук. Я советую следить за этим. Сейчас даже в научных работах и контестах проверяется, на каких данных сделаны ваши исследования и решения. Недавно Фейсбук дисквалифицировал победителей конкурса, использовавших неразрешённый датасет с Flickr. Был большой скандал.

Оффтоп - ты увлекаешься японской культурой давно. Какое _одно_ произведение из жанра аниме нужно обязательно посмотреть, чтобы понять этот жанр?

"Пинг-понг". Аниме про двух школьников, которые увлекаются пинг-понгом. Его стоит посмотреть, так как это не просто какое-то детское аниме, и оно не совсем про пинг-понг - по сути это история взросления. Аниме рассказывает о том, как человек выбирает свой жизненный путь. Оно хорошо еще тем, что довольно короткое, плюс там хорошая и необычная отрисовка.

Блиц-опрос.

Гугл или яндекс? Гугл, просто он мне ближе.

Озон или амазон? Амазон, хотя озон тоже хорош (тестировал их доставку во время карантина).

Джобс или Гейтс? Гейтс, потому что он занимается настоящей эффективной благотворительностью.

Дуров или Маск? Дуров. Трудный вопрос. Рационально на него не ответить.

Алиса или Siri? Алиса, в конце концов, с ней удобно общаться на русском языке.

Япония или США?

США, потому что это открытая многонациональная страна. В том смысле, что если выучить язык, ты вполне сойдешь там за своего. С Японией такого не выйдет - ты всегда будешь чувствовать себя иностранцем.

Telegram или ВК? Активно пользуюсь и тем и тем.

2 книги которые больше всего на тебя повлияли?

Песня свон” - фантастика про жизнь после ядерного взрыва, круто читать было на карантинет. "Жизнь глазами Гарпа" Джона Ирвинга, рассказы Василия Шукшина.

Ютуб Каналы?

Блогер Кузьма, Максим Кац.

Что бы ты в целом пожелал нашим слушателям?

Критически относиться, не делать поспешных выводов, взвешенно принимать решения, слушать чужие точки зрения, обсуждать все с другими людьми и совместно с ними приходить к какой-то истине.

ССЫЛКИ из эфира

https://vk.com/ml - страница Павла.

https://vk.com/tech - паблик про технологии, который в видео-формате детально рассказывает о том, как именно применяется машинное обучение в ВК.

https://vk.com/lab - лаборатория искусственного интеллекта ВК, где как раз решаются вопросы, связанные с недочетами машинного обучения. model-degeneration - пытаются решить.

https://vk.com/deepvk - команда Павла.

Напомню, что это была лишь краткая тезисная выжимка - ответы на вопросы в видео шире и раскрывают вопросы глубже. Если вам интересна тема бизнеса и больших данных, то рекомендую видео с Алексеем Авдеем о том, как Сбербанк анализирует вас по транзакциям и как встраивает это в свою работу и интервью с Ильёй Лагутиным, сделавшим самого большого продавца данных в России.

0
Комментарии
-3 комментариев
Раскрывать всегда