Популярное
Свежее
Моя лента
Сообщения
Рейтинг
Курсы
Темы
Маркетинг
Сервисы
AI
Личный опыт
Деньги
Инвестиции
Право
Карьера
Путешествия
Крипто
Показать все
vc.ru
О проекте
Правила
Реклама
Приложения
Промо
16.01.2018

«Машинное обучение меняет жизнь, но мы этого не замечаем — привыкли»

Профессор «Сколтеха» Евгений Бурнаев о том, как применять машинное обучение в бизнесе.

Материал подготовлен при поддержке «Сколтеха»

Евгений Бурнаев
Евгений Бурнаев

Евгений Бурнаев — российский ученый, кандидат физико-математических наук. Профессор Центра по научным и инженерным вычислительным технологиям для задач с большими массивами данных Сколковского института науки и технологий («Сколтех»).

О машинном обучении заговорили в 2012 году, в основном, из-за нейросетей. Как его применяют в бизнесе сейчас? Например, в банках.

Условно, задачи в банках бывают двух видов: внутренние и инженерные. Первые связаны с принятием финансовых решений. Вторые — с обеспечением деятельности банка.

Простой пример инженерной задачи: при оформлении кредита в банке клиент показывает паспорт, который на самом деле не принадлежит клиенту — просто похожа фотография — или же паспорт поддельный. В этом случае по фотографии с камеры, установленной у сотрудника банка, нужно выяснить, есть ли этот человек в базе мошенников — стоило нейросетям научиться этому, как они сразу стали востребованы на рынке.

Благодаря нейросетям эволюционировали технологии распознавания документов (Optical Character Recognition). Эти технологии позволяют автоматически распознавать, сортировать и отправлять бумаги, что экономит время и деньги.

Если программа ошибается, — а такое бывает, хоть и редко, — это не страшно, ведь задачи инженерные. Неправильно распознанный документ, хоть и добавляет работы, всё же не особенно вредит организации.

Есть также классическая банковская процедура — кредитный скоринг (оценка кредитоспособности человека или организации — vc.ru). В ней задействованы автоматизированные системы: они запрашивают и анализируют кредитные истории, отслеживают движение денежных средств на счету заёмщика и выводят общий балл, оценивающий кредитоспособность.

Основные модели, которые в настоящее время используются в скоринге — линейные. Балл, выставляемый заёмщику, является комбинацией различных характеристик заёмщика. Как следствие, довольно легко объяснить, почему банк принял то или иное решение. Учитывая «антидискриминационные» законы, в соответствии с которыми клиент может запросить у банка объяснения о причинах принятого решения, это свойство линейных моделей крайне полезно.

Другое полезное свойство этих моделей — «робастность» (robust — (англ) крепкий, сильный — vc.ru), то есть даже если резко поменяется экономическая ситуация и текущая модель перестанет быть достаточно точной, количество ошибочных решений возрастёт незначительно.

Эксперименты показывают, что использование более сложных нелинейных моделей, таких как ансамбли деревьев решений и нейросети, позволяет получить более точные прогнозы. Но если раньше сотрудники банков знали, почему программа приняла именно такое решение, сейчас они зачастую остаются в неведении. Слишком много данных, слишком сложные модели, которые их обрабатывают — нейросети состоят из десятков и сотен миллионов элементов.

После того, как нейросети стали применять в бизнесе, они стали целью для мошенников. Злоумышленник может «скормить» нейросети картинку с небольшим, еле видимым глазом, искажением. Программа не сможет корректно распознать изображение и начнёт выдавать ошибки.

Мы знаем, почему так происходит, но пока нет способов гарантированно отсекать такие ситуации.

Есть и ещё один интересный эффект, связанный с обучением сложных моделей на больших выборках. Если нейросеть обучалась на неверных или неполных данных, любые отклонения от заданной нормы будут казаться ей неправильными.

Например, если по каким-то причинам обучающая выборка собиралась в стране, в которой принято, что, в основном, работают мужчины, а женщины — занимаются домашним хозяйством, то нейросеть в итоге может посчитать менее кредитоспособными именно женщин.

Словом, у нейросетей есть три больших минуса. Во-первых, из-за нелинейности работы разработчики не могут гарантировать, что нейросеть не начнёт врать. Во-вторых, людям сложно объяснить, как они работают. И в-третьих, из-за неправильных исходных данных у неё могут появиться «предрассудки».

«Машинное обучение меняет жизнь, но мы этого не замечаем — привыкли»

Какие ещё могут возникнуть проблемы, если методы машинного обучения будут применяться повсеместно или их будут меньше контролировать?

Есть Базельские соглашения, регламентирующие банковскую деятельность вплоть до документооборота, систем безопасности и условий возврата денег клиентам. Эти стандарты гарантируют устойчивость банков, и они их принимают, чтобы быть надёжнее.

Такой же регламент нужен и для машинного обучения. Чтобы можно было понять, почему модель приняла именно такое решение с математической точки зрения, и какими будут юридические последствия. При этом наличие такого регламента не только поможет гарантировать прозрачность решений и повысит их точность, но и потенциально повысит прибыль банка.

Разработка регламента — сложная задача, требующая разработки новых нелинейных методов машинного обучения и юридической проработки сценариев их использования.

Всё как в любых сложных системах управления и контроля — в самолётах или, например, поездах. В самолёте сотни километров проводов, как гарантировать, что из-за того, что какой-то из них перегорит, не произойдет аварии? С помощью стандартов, контроля качества на производстве и сборке.

Есть специальные процедуры оценки надежности, после которых становится ясно, с какой вероятностью выходит из строя каждый элемент системы и как следствие, и вся система в целом. В сфере машинного обучения со временем появятся такие же стандарты.

Помимо угроз AI и ML, которые сейчас у всех на слуху, стоит отметить аспекты из реальной практики специалистов науки о данных. Все модели, которые работают в изменяющейся среде, требуют актуализации и диагностики.

Разработчик должен вовремя понять, что модель перестала быть релевантной и перенастроить её. И, конечно, если вы принимаете решения, основываясь на результатах работы сложных моделей, нужно учитывать их особенности и ограничения, особенно в ситуации стресса, когда модели могут не успевать подстраиваться и адаптироваться.

Алексей Лякин

Какие виды нейросетей и других методов используются чаще всего, и насколько они зависят от области применения?

Изображения распознают свёрточные сети, у которых много слоёв и в каждом слое – некоторый набор фильтров. Для прогнозирования — например, того, через какое время закончатся деньги в банкомате, — используются рекуррентные нейросети (они могут обрабатывать последовательности данных произвольной длины, основываясь на своей внутренней памяти — vc.ru).

Для обработки логов пользователей можно использовать модели типа word-to-vector. В них каждому слову соответствует определённый набор из сотен или тысяч чисел — векторов, другими словами. Если с этими числами проводить какие-то операции, то будут меняться и соответствующие им слова.

Стандартный пример: «Россия минус Москва плюс Париж равно Франция». Если связать числа с названиями городов и стран и провести с ними те же операции, получится вектор, очень похожий на тот, который соответствует слову Франция. Это специальный класс нейросетей, которые представляют объекты в виде чисел так, чтобы сохранялись некоторые свойства этих объектов.

Например, у нас с вами телефоны похожи — значит, сходными будут и описывающие их вектора чисел. Затем строится модель, в которой вектора похожих объектов формируются так, что визуально они как бы притягиваются друг к другу, собираются в группы.

В банковской деятельности, как и в любой сложной системе, данные очень разнообразны, так что используется весь арсенал методов машинного обучения.

В казначействе мы используем машинное обучение для прогнозирования поведенческих особенностей клиентов в рамках всей продуктовой линейки банка. Например, будет ли клиент выплачивать ипотеку досрочно, каким будет спрос на продукты банка в будущем, что нужно поменять, улучшить, чтобы занять тот или иной клиентский сегмент.

К примеру, если человек берет ипотеку на 20 лет и в среднем погашает её через 4-5 лет, то в банк эти деньги вернутся значительно быстрее контрактного срока. Это позволяет нам сделать кредит дешевле или запланировать выдачу нового.

В целом, досрочное погашение кредитов зависит от большого количества факторов: срок кредита, валюта, возраст клиента, пол, ключевая ставка ЦБ и так далее. Например, мы даже предсказываем, что часть клиентов будет использовать материнский капитал для выплаты ипотеки.

Алексей Лякин

Банкам машинное обучение помогает сократить издержки. А для клиентов какая польза?

Мне кажется, что каким бы прекрасным ни было машинное обучение, если человеку хамят в отделении, он в банк больше не придёт. Лояльность клиентов зарабатывается решением их насущных проблем, а нейросети нужны, чтобы банки работали более эффективно и надежно. Клиенты не видят, что «под капотом», как устроены внутренние механизмы, но они замечают, что качество предоставляемых услуг изменилось в ту или иную сторону.

С другой стороны, можно вводить услуги, основанные на машинном обучении, например рекомендательные сервисы.

То есть из-за машинного обучения не будет революции? Допустим, в отношениях банка и клиента.

Революция — понятие относительное. Человек из 1995 года удивился бы смартфону, а для нас они в порядке вещей. На мой взгляд, машинное обучение меняет жизнь. Просто мы этого не замечаем — привыкли.

Есть много проблем, возникающих при переобучении алгоритмов и сетей — они уже решены?

Нет, конечно. Это что-то вроде гонки: с одной проблемой разобрался, и тут же появилась другая.

Этим занимаются компании или исследовательские организации?

Сейчас сложилась занятная ситуация: компании вроде Google и Facebook заинтересованы в этой сфере и у них достаточно средств, чтобы заниматься исследованиями.

«Машинное обучение меняет жизнь, но мы этого не замечаем — привыкли»

Хотя в университетах и институтах тоже происходит много всего интересного, крупные компании в какой-то мере монополизировали машинное обучение. Во многом из-за того, что для него нужны значительные вычислительные ресурсы и доступ к массивам данных, а у таких компаний они есть в избытке.

Назовите два-три самых интересных и небанальных примера использования машинного обучения.

Например, компания «Минимакс» использует нейросети для прогнозирования температуры поверхности дороги. У неё есть погодные станции на автомагистралях, и каждая анализирует, кажется, шесть характеристик: ветер, давление, температуру воздуха и так далее.

Компания принимает эти данные и прогноз от Росгидромета и генерирует собственный прогноз температуры поверхности дороги. Соответственно, с помощью современных методов машинного обучения этот прогноз можно сделать точнее. Узнать, будет ли обледенение, например.

Есть другая компания, там тоже история с прогнозированием, но спроса, а не температуры. Допустим, вам интересен спрос на смартфоны. Но они ведь состоят из деталей, соответственно, производители смартфонов формируют спрос и на них, и его тоже нужно спрогнозировать. А детали эти могут применяться в других устройствах — получается дополнительный источник спроса. Чтобы всё это спрогнозировать и учесть вот эти нефиксированные зависимости между различными номенклатурами деталей, и нужно машинное обучение.

«Машинное обучение меняет жизнь, но мы этого не замечаем — привыкли»

Недавно я начал немного заниматься обработкой 3D-данных, компьютерной графики. Сейчас это очень популярно, потому что с такими данными работают лидары (лазерные радары — vc.ru), с помощью которых в пространстве ориентируются самоуправляемые автомобили.

Многие корпорации внедряют машинное обучение — даже проводят соответствующие курсы для своих сотрудников. «Сбербанк», например.

Да, и мы в этом активно участвуем.

Вы в корпоративном университете «Сбербанка» преподаёте уже второй курс — чем он отличается от первого?

Это скорее вторая итерация, а не продолжение первого курса. Мы проводим как семинары, так и лекции — учащиеся не только получают общее представление о машинном обучении, их ещё и учат решать конкретные технические задачи. Более того, они сдают зачеты, выполняют домашние задания и делают проекты.

Двойки получают?

Да. Там вообще жёсткая дисциплина: два человека не пришли на занятия, и их сразу исключили. И в целом это правильно, потому что когда у вас в подчинении тысячи людей, только так можно эффективно управлять оргструктурой.

Способность применять технологии в управлении и процессах банка будет определять конкурентоспособность на горизонте пяти лет, и его выживание после.

К этим технологиям относятся применение технологии блокчейн для проведения транзакций, технологии биометрии для идентификации клиентов, методов машинного обучения, включая нейросети и суррогатное моделирование, как для взаимодействия с клиентами, так и для оптимального принятия решений внутри банка с учётом быстро меняющейся рыночной или макроэкономической ситуации.

Например, в «Сбербанке» решения уже принимаются с учётом влияния на прибыль и риски банка, а оценивается это с помощью моделей машинного обучения.

Алексей Лякин

Как устроены семинары «Сколтеха» в Корпоративном университете «Сбербанка»

«Машинное обучение меняет жизнь, но мы этого не замечаем — привыкли»

Это специальный курс по анализу данных и машинному обучению. В одной группе занимается около 20 человек. Один учебный курс идёт сорок академических часов: по восемь на каждую тему — четыре лекции и четыре семинара.

На лекциях преподаватели объясняют разные математические тематики и отвечают на вопросы студентов.

А на семинарах учащиеся — студенты корпоративного университета — работают на компьютерах — их учат применять основные методы машинного обучения, в том числе нейросети. При этом рекомендательным системам посвящена отдельная лекция.

#партнерский

Узнать больше