{"id":14270,"url":"\/distributions\/14270\/click?bit=1&hash=a51bb85a950ab21cdf691932d23b81e76bd428323f3fda8d1e62b0843a9e5699","title":"\u041b\u044b\u0436\u0438, \u043c\u0443\u0437\u044b\u043a\u0430 \u0438 \u0410\u043b\u044c\u0444\u0430-\u0411\u0430\u043d\u043a \u2014 \u043d\u0430 \u043e\u0434\u043d\u043e\u0439 \u0433\u043e\u0440\u0435","buttonText":"\u041d\u0430 \u043a\u0430\u043a\u043e\u0439?","imageUuid":"f84aced9-2f9d-5a50-9157-8e37d6ce1060"}

Роман Нестер

19 авг 2020 19.08.2020

Искусственный интеллект и большие данные ВКонтакте от первого лица. Интервью с Павлом Калайдиным (видео и тезисы)

Как ВКонтакте использует машинное обучение для автоматизации работы службы поддержки? Зачем и как соцсеть научила свои алгоритмы различать хентай и аниме? Как строятся исследования в области ИИ в принципе? И даже - какое аниме вам точно нужно посмотреть? Мы поговорили с Павлом Калайдиным, директором по исследованиям Вконтакте. Публикуем видео и тезисную расшифровку разговора.

Интервью вёл Роман Нестер, руководитель магистратуры “Коммуникации, основанные на данных” НИУ ВШЭ, со-основатель big data компании Segmento. В цикле “Большие данные больших компаний” мы также говорили с МТС, Сбербанком, Waay, ВКонтакте. Видео и расшифровки этих встреч мы вскоре публикуем на нашем канале и здесь на VC. Для удобства к этой расшифровке добавлены таймкоды видео - так вы сможете легко найти полную версию ответа.

00:01:15

Чем ты занимаешься в ВК?

Я - директор по исследованиям в области ИИ. Последние два года я руковожу подразделением, которое называется "Команда прикладных исследований". До запуска нашего подразделения, машинное обучение во ВКонтакте в основном применялось для ранжирования выдачи постов в ленте новостей. Мы расширили его применение. Цель нашей команды формулируется в целом как “разработка новых технологий”.

00:15:59

Как big data изменила ВК?

Благодаря машинному обучению нам удалось автоматизировать и ускорить ответы “агентов” поддержки. Всегда есть срочные вопросы и те, которые не требуют мгновенной реакции. Но чтобы понять это, их сначала нужно прочесть. Это тормозит работу агентов. Мы научились мгновенно распознавать вопросы и отвечать на часть из них. Благоларя этому нам удалось значительно сократить время ожидания ответа пользователем - теперь к агентам попадают уже отсортированные запросы. Также мы внедрили такую разработку, как подсвечивание определенных фрагментов текста вопроса для работников техподдержки - благодаря этому они могут быстрее определиться с ответом, не читая весь текст.

Всё это помогло лучше сортировать информацию и расставлять приоритеты. Все-таки цель агентов поддержки - отвечать быстро на сложные вопросы, а простые - откладывать на потом.

Другая задача - фильтрация контента в поиске, в особенности в “безопасном”. Благодаря нашей работе ВК сумел проводить более-менее четкое различие между эротикой и порнографией, что помогло продвинуться в скрытии из безопасного поиска NSFW-контента. Проблема была с выделением хентая - японского порнографического жанра. Но в аниме-материалах, которых много, могут встречаться сцены эротики. Нельзя вырезать всё скопом. Мы построили специальный классификатор, который научился разделять эти два понятия.

Еще одной разработкой стал алгоритм, позволяющий отслеживать "токсичные" посты с обилием оскорблений. Есть определенный набор фраз-тегов, благодаря которому фильтруется информация. Наличие в посте тех или иных фраз и формулировок определяют вероятность того, что текст относится к категории "токсичных" и его нужно скрыть.

Правда, и здесь возникают определенные трудности, потому что иногда под фильтр попадают слова, которые сами по себе не являются оскорбительными, но часто используются в подобных постах. Работа, нацеленная на совершенствование алгоритма, как раз и заключается в том, чтобы минимизировать подобные ошибки.

Как можно измерить пользу от ваших технологий в деньгах? Есть ли вообще с этим проблема, ведь работу ИИ не так просто “оцифровать”.

У команды стоит задача предложить применение машинного обучения, но у нас нет цели как-то непременно экономически это обосновать. Мы не ищем прямого пути увеличить прибыль, а разрабатываем технологии. Мы придумываем, как именно можно улучшить и развить саму платформу и затем сообщаем об этом командам разработчиков. Дальше уже их задача это внедрить или отбросить и на их этапе происходит оценка.