Искусственный интеллект изнутри: будни проектов в сфере машинного обучения

Анализ перспектив направления от генерального директора агентства по анализу данных Data Monsters Артемия Малкова и директора по онлайн-маркетингу сервиса Biglion Дмитрия Лучкина.

Артемий Малков: Термин deep learning (глубокое обучение) используется для решения задач с использованием многослойных нейронных сетей. Machine learning (машинное обучение) — более широкий термин, включающий комплекс алгоритмов классификации, задач снижения размерности, обработки рядов данных и тому подобного.

Мода на глубокое обучение пришла в связи с успехами сверхточных и рекуррентных нейросетей в задачах обработки изображений, звука и текста.

В отличие от традиционных методов, большая часть которых так или иначе построена на правилах, которые задаёт специалист (rules-based), и опирается на ручной подбор признаков (features), нейросети умеют самостоятельно находить значимые скрытые признаки.

Однако такие нейросети требуют больших объёмов размеченных данных, и успешные проекты с использованием глубокого обучения получаются достаточно трудоёмкими и дорогостоящими. Но если всё сделать правильно, они могут дать высокую точность, недостижимую другими методами.

Дмитрий Лучкин: Яркий пример использования машинного обучения — механика, которую одна из студий разработала для одного из лидирующих разработчиков игр.

На основании действий каждого игрока создавался профиль, предсказывающий его поведение в игре. С помощью этого инструмента компания не только получила инсайты по удержанию пользователей в игре, но и выяснила, какие навыки им можно прокачивать, какие индивидуальные предложения или артефакты можно предлагать игрокам.

Мне близки простые механизмы, востребованные на уровне пользователя или бизнеса. В конце 2017 года я заметил, что у сервиса Avito появилась классная функция, работающая с распознанием образов по принципу «сфотографируй товар и найди его у нас для последующей покупки».

На одной из конференций специалисты из «Едадил» рассказали, что сегментируют аудиторию по первым действиям в мобильном приложении для предсказывания оттока. Как только они понимают, что пользователь готов уйти (растёт его вероятность в модели скоринга), делают ему специальное предложение, чтобы удержать.

Скоринговые модели оценивали посетителей сайта и лендингов одного из лидирующих банков в режиме реального времени, и делают предложение под конкретную пользовательскую когорту.

При этом закупка трафика идёт с учётом предыдущего поведения пользователя в сети. Сопоставляют они их явно не методом brutal force attack.

Артемий Малков: Я думаю, все уже слышали о достижениях AlphaGo и AlphaZero в игре Go, а также о нашумевших проектах со style-transfer нейросетями, умеющими накладывать определённый стиль на картинку.

Из менее известных, но не менее интересных примеров могу отметить разработки лаборатории Deep Learning for Robotics в Калифорнийский университет в Беркли, где с помощью reinforcement learning (обучения с подкреплением) роботы учатся манипулировать объектами: закручивать пробку в бутылку, складывать кубики и так далее.

Изначально робот не имеет никаких знаний об этих предметах и манипулирует методом тыка, но получает награду, если делает с объектом что-то правильное. Так робот формирует навык.

Также интересны проекты на стыке обработки текста и картинок: возможность получать ответы на вопросы по картинке на естественном языке, например, «какого цвета яблоко на картинке?».

Или синтез картинок по текстовому описанию: например, описание «синяя птица с большим жёлтым клювом» синтезирует соответствующее изображение.

Артемий Малков: Около 20 лет назад, ещё в институте, я впервые столкнулся с распределениями с длинным «хвостом». Такие статистические распределения характерны для большого числа социальных систем.

Например, если посмотреть на число подписчиков самых популярных блогеров, население городов, богатство миллиардеров, частоту использования слов, выручку корпораций и так далее, то у каждого из этих множеств есть несколько лидеров: самых популярных блогеров, самых крупных городов, самых богатых миллиардеров и так далее. И большое число (длинный хвост) блогеров, городов, миллиардеров средней величины.

И, несмотря на то, что популярные проекты имеют колоссальную аудиторию, население или капитал, длинный хвост проектов средней величины также нельзя сбрасывать со счетов. Хвост может составлять 40% от общей массы. Такая статистика описывается степенным законом.

Как ни странно, практически в любой задаче с искусственным интеллектом мы тоже сталкиваемся с длинным хвостом: есть какие-то объекты, паттерны, закономерности, которые встречаются очень часто. Их легко распознать.

Если данных достаточно, это могут сделать и нейросети, и деревья решений, и любые алгоритмы классификации. Однако эти частые объекты не покрывают 100% всех случаев, от силы это может быть 60-70%.

А вот оставшиеся 30-40% точности — это как раз длинный «хвост» среднечастотных случаев, объектов, паттернов. Их много, каждый из них довольно редкий и, что особенно досадно, алгоритмы машинного обучения плохо с ними справляются. Данные разреженные (sparse data) и обучающая выборка слишком мелкая.

Мы научились правильно «готовить» такой «хвост», что даёт существенное повышение точности алгоритмов. Например, в популярной теме чат-ботов для банков и телекома, наш алгоритм научился распознавать тысячу и более разных тем и типов запросов, тогда как у остальных команд обычно речь идёт о 50-200 темах. Банкам такая точность кажется недостаточной.

По нашим оценкам, для хорошего качества диалогов в банке чат-бот должен уметь распознавать 5000 и более разных ситуаций и запросов. Нейросети, например, пока не умеют так тонко обрабатывать текст. Такой уровень детализации обычно достигается только за несколько лет ручного труда аналитиков и конструирования правил.

Мы разработали алгоритмы, которые позволяют обучить систему за пару месяцев и настроить цикл её дальнейшего самообучения. Поэтому крупные банки, которые уже попробовали делать чат-ботов и столкнулись с тем, что те плохо распознают запросы, приходят к нам.

Дмитрий Лучкин: Если брать из недавних проектов, то для компании-лидера по продаже купонов мы на основе алгоритма «Случайный_лес» сделали два ИИ-модуля. Первый — для предиктивной аналитики вероятности оттока, который в режиме реального времени когортировал пользователей по вероятности ухода на основе истории их поведения. Второй — модуль рекомендательной системы.

Оба модуля работали на основе собранных данных в виде 800 млн событий по 4 млн уникальных покупателей (просмотры, частота открытия и закрытия витрин, категории покупок, сами покупки, средний чек, платформы, действия на активацию через email и так далее)

Они продемонстрировали высокую точность предсказательной силы и рост конверсии в продажи (выше, чем у общеотраслевых решений по ecommerce — у скидочных сервисов своя специфика).

Проекты с использованием искусственного интеллекта хороши тем, что дают понятную измеряемую полезность. Если знаете, какой сегмент у вас уйдет. Если кто-то из тех, что платят деньги, — вам нужно делать всё возможное, чтобы удержать этих высокодоходных пользователей. На зрелых рынках с высоким уровнем конкуренции выигрывает тот, кто лучше возвращает и удерживает своих потребителей.

Артемий Малков: Я бы выделил два аспекта: технический и аспект бизнеса. С точки зрения бизнеса, искусственный интеллект сейчас находится на стадии массового внедрения как в процессы бизнеса, так и в продукты, предназначенные для пользователей.

Это масштабное явление. Например, 20 лет назад самой востребованной функцией у компаний был выход в интернет, потом — выход в «облака», затем на мобильные устройства. Сейчас это внедрение искусственного интеллекта.

Технически это связано с появлением больших данных и средств их обработки. Технологии типа MapReduce и Spark, возникая внутри Google, Facebook, Twitter и прочих, стали доступны рынку, и теперь даже небольшие стартапы могут обрабатывать колоссальные объёмы данных за счёт параллельных вычислений.

А там, где есть данные, есть простор для анализа, майнинга, поиска паттернов, создания ценности для бизнеса за счёт предсказательных алгоритмов.

Дмитрий Лучкин: Сегодняшнюю ситуацию с искусственным интеллектом можно описать так: ребёнок научился ходить и скоро начнёт бегать. Всё стало получаться лучше, когда стриминг и обработка данных стали доступнее, когда талантливые люди взяли не просто взяли уже несколько десятилетий известную методологию, а смогли собрать самообучающуюся машину. Это «железо» (то есть инфраструктура), таланты и потребность.

На мой взгляд, большую роль сыграла конкуренция между компаниями в digital, где стали появляться новые виды потребления и поведения. Там работа с данными позволяла технично обыграть конкурентов и выбраться вперёд. Немаловажно, что лидеры этих компаний понимали, какую ценность и предсказательную силу дают данные. Кстати, многие из них — математики, физики или инженеры по образованию.

Артемий Малков: Наша компания работает в США с 2008 года, уже почти десять лет. К науке в США и раньше было повышенное внимание, например, в венчурной среде звание доктора философии у основателя стартапа ценится гораздо выше, чем звание мастера делового администрирования.

Но и в США тема с Data Science стала наиболее актуальной где-то в последние три года. При этом американцы реально рассматривают Китай как конкурента и активно обсуждают «китайскую угрозу».

Китай обладает колоссальными финансовыми ресурсами и за счёт социалистической модели и элементов плановой экономики может вкладывать в ИИ-проекты больше средств, чем США. Кроме того, Китай более закрытый.

Значительное число китайцев работает в сфере искусственного интеллекта в США, и в том числе перенимает американские ноу-хау. Например, в Стэнфорде ИИ-лаборатории практически полностью состоят из китайцев и индийцев. При этом гораздо меньше американцев работают в Китае. Так что в долгосрочной перспективе (10-20 лет) США с тревогой ожидает утрату лидерства в сфере искусственного интеллекта.

Артемий Малков: В России довольно много хороших учёных и инженеров, да и поисковик «Яндекса» — довольно уникальное явление. Собственные полноценные поисковики есть только у США, Китая и России. Так что Россия далеко не последняя страна на рынке искусственного интеллекта.

Но у нашей страны есть проблема с конкурентоспособностью в сфере продуктов. Отсутствие компетенций в маркетинге и управлении приводит к тому, что мы можем делать отдельные компоненты, но целостный продукт довести до клиента не можем. Это сфера, требующая развития.

Дмитрий Лучкин: В России серьёзно заговорили об искусственном интеллекте в этом году, можно вспомнить даже слова лидера страны, и это хорошая новость. Китай и США активно инвестируют в индустрию последние 5-7 лет. Конечно, у США кроме образовательных центров есть мощная венчурная экосистема, притягивающая таланты.

У Китая огромные ресурсы (они легко и быстро покупают разные проекты и бизнесы) и ещё виден колоссальный рывок в сфере образования. Я говорю про новые университеты и умение планировать на долгий срок без ожиданий немедленных результатов.

С точки зрения внедрения, в России заказчик зачастую ожидает «магии» и быстрых результатов, хотя машинное обучение — это итерации и всегда тернистый путь к результату.

Я вижу в общении с потребителями этих технологий их желание получить гарантированный результат, но алгоритмы не существуют без данных. Чистота и качество данных очень важны. Ещё в России есть хорошие ML-проекты. Хотелось бы, чтобы увлечённые искуственным интеллектом люди чаще встречались и рассказывали об успехах, делились бесценным опытом.

Дмитрий Лучкин: В России невероятно сильная математическая школа. Ребята из таких вузов, как СПбГУ, МИФИ, Бауманка, Физтех, конечно, имеют сильнейшее математическое подспорье. В сфере искусственного интеллекта это основа основ.

Выходцы из этих учебных заведений, с которыми мне довелось поработать, на мой взгляд — первооткрыватели и исследователи. Это экспериментаторы, которые ищут работающие решения и добиваются результатов. В большинстве случаев это очень талантливые ребята, они будут биться над проблемой, пока её не решат. В ИИ-проектах это качество очень важно.

Артемий Малков: У Физтеха нестандартная модель обучения, которую заложил основатель Физтеха Пётр Леонидович Капица: на четвёртом курсе студенты в обязательном порядке несколько дней в неделю начинают проводить не в стенах вуза, а на базовых кафедрах. В научных институтах Академии наук.

Поэтому студенты очень рано попадают в зрелые научные коллективы и получают опыт решения прикладных, а не учебных задач. Ну и сам отбор студентов, работа со школьниками, олимпиадниками, самый высокий балл ЕГЭ среди поступающих, — всё это даёт повышенную концентрацию любителей нетривиальных задач.

Артемий Малков: Надо понимать, что это не первый хайп по искусственному интеллекту. Много ожиданий от этих технологий строились ещё на заре вычислительной техники, 50-40 лет назад. Сейчас, если выражаться терминами кривой хайпа, популярны не беспочвенные завышенные ожидания, а как раз выход на продуктивность. Другое дело, что корректное применение методов под силу только небольшому числу команд, имеющих правильный набор компетенций.

Для успешного решения задач требуются одновременно специалисты-математики, сильные продуктовые люди с бизнес-видением и технари, способные построить инфраструктуру. Раньше было проще: в стартапе были нужны бизнесмен и технарь.

А теперь нужен ещё и учёный. Это редкая комбинация и совершенно разные культуры организации работы. Учёным зачастую собственное научное любопытство и желание первым изобрести волшебную формулу и «теорию всего» важнее, чем решить скучную прикладную бизнес-задачу.

Но зато, если удаётся собрать продуктивную команду, ИИ-стартап вполне способен потягаться с силами с корпорациями. Это привлекает инвесторов и создаёт ажиотаж.

В отрасль стремятся новые участники, которые слабо владеют математическим аппаратом. И получается то, что называют monkey science — «эксперты», суть знаний которых составляет десяток лекций с Coursera, умение импортировать научную библиотеку в Python и загружать в нее CSV-файл.

Для учебных задач с готовыми наборами данных такой подход может дать какой-то результат, но когда возникает реальная задача, выясняется что данные плохи и результаты предсказаний находятся на уровне погрешности.

А вот полноценная ML/AI-команда сумеет даже на плохих данных провести и конструирование признаков (feature engineering) и аугментацию данных (data augmentation), так что модель даёт разумные предсказания и нетривиальные решения.

Дмитрий Лучкин: Хайп очень помогает. Это повысило уровень внимания, объем инвестиций и понимания бизнесом всех выгод от успешного внедрения ИИ. Да, появилось много специалистов начального уровня и новичков, но тема стала горячей.

Хакатоны собирают десятки и сотни человек, которые делают прототипы или как минимум предлагают концептуально интересные решения. А дальше принцип конкуренции и отбора — лучшие команды побеждают. Желательно, чтобы этих команд было больше в России, пусть из них вырастут настоящие лидеры. Потому что пустых лакун в мировом разделении труда почти не осталось.

Ещё было бы классно, если бы команды чаще рассказывали о своих проектах. Так было бы ещё проще привлекать в эту крайне востребованную область молодых ребят с драйвом и горящими глазами.

Артемий Малков: ИИ будет всё больше забирать на себя принятие решений, причём как решений высокого уровня, стратегических, так и микрорешений на уровне отдельных процессов.

Как сейчас пишется софт? Бизнес-аналитик придумывает продукт, описывает требования к алгоритмам, описывает цепочки (user stories) и их логику (когда что показывать пользователю, как реагировать на ввод пользователя, какие внутренние процессы запускать), потом программист берёт эти требования и по ним пишет программу, в которой имплементирует эту логику на уровне тысяч строк кода, где прописаны эти самые if-then-решения.

Но после того, как код написан, он может устареть. Например, какие-то правила поменялись. Что нужно делать: опять звать аналитика, переписывать бизнес-логику и звать программиста (предыдущий уже уволился) чтобы тот разбирался в legacy-коде и переписывал программу.

Никто этого не любит, это дорого, сложно, и legacy-софт может оставаться в бизнесе десятилетиями исходя из принципа «никто не знает как оно работает, но лучше не трогать».

А представьте, что в будущем программы можно будет не писать, а учить. То есть, вместо if-then-проверок, «зашитых» в коде, могут быть машинное обучение или ИИ-блоки, которые принимают решения не исходя из той логики, которую придумал когда-то аналитик и написал программист, а из того, какие сейчас данные и какие действия (then) являются оптимальной реакцией на текущие входящие сигналы (if). То есть программа «by design» имеет изменяемую, обучаемую бизнес-логику.

Такие самообучающиеся программы пока существуют только в теории, но они будут на порядок эффективнее существующих систем. А это значит, что практически любой софт, который сейчас существует, нужно будет переписать на новых принципах.

Это новые самообучающиеся корпоративные системы, консьюмерские приложения и так далее. И это шанс для возникновения новых миллиардных компаний, которые будут быстрее адаптироваться к пользователям и лучше решать сложные задачи.

Дмитрий Лучкин: В России начнётся внедрение ИИ-решений во многих вертикалях: чем выше уровень конкуренции в вертикали, тем быстрее будет идти этот процесс.

Сейчас в лидерах digital, банковская сфера, операторы связи, пищевой ритейл, промышленное производство. Идёт этап адаптации технологического стека для решения конкретных проблем. Хайп полезен тем, что он, во-первых, задаёт моду, а во-вторых, благодаря этому ИИ попал на радары лиц, принимающих решения.

Есть понимание, что это серьёзно и нужно оперативно в это инвестировать. Я бы сравнил, если грубо, с популяризацией интернет-рекламы в начале 2000-х годов: сначала ею заинтересовались инноваторы (это была редкость или игрушка для гиков или строго для digital), а сегодня большинство брендов использует рекламу в интернете каждый день.

Мне кажется, что уже к 2020 году большинство компаний-лидеров будут в России использовать ИИ-решения. В России есть команды с очень интересным опытом в ИИ, и мы сильны в математике, поэтому шанс играть в долгую у России есть, несмотря на все сложности с выводом технологий на глобальный рынок и турбулентность текущей среды.

Артемий Малков: Если говорить про совсем ближайшее будущее, то хайп будет ещё сохраняться какое-то время, но больше будет и более зрелых историй. Уже сейчас есть устойчивый интерес бизнеса к научным проектам, такого не было десять и даже пять лет назад. Не надо забывать про международную конкуренцию.

В России много талантливых учёных, но мало продуктовых людей. Надо учиться находить не только собственные числа матрицы, но и клиентов, выяснять их потребности, поднимать управленческую культуру и конкурировать на внешних рынках.

Мы в Data Monsters как раз помогаем нескольким российским научным коллективам выйти на рынок США и видим разницу. Пожалуй, на уровне сообщества стоит плотнее обмениваться не только научным опытом, но и опытом ведения бизнеса и превращения гениальных изобретений в прибыльные, конкурентоспособные продукты.

#будущее #машинноеобучение

Искусственный интеллект изнутри: будни проектов в сфере машинного обучения

Чем глубокое обучение отличается от машинного

Объясняем на примере кейсов

Примеры собственных проектов с использованием искусственного интеллекта

Ситуация с Data Science и искусственным интеллектом на сегодняшний день в мире (США, Китае)

Data Science и искусственный интеллект в России

Россия: уникальное сообщество разработчиков, хорошая почва для развития

Мешает ли нынешний хайп развитию машинного обучения и ИИ

Прогноз на ближайшие годы