16 апр 2019 16.04.2019

Отдел кредитных рисков ежедневно анализировал тысячи новостей — мы заменили его моделью машинного обучения

И сократили затраты на сотрудников в 40 раз.

В предыдущей статье мы уже говорили о том, на сколько опасен сегодняшний ИИ для рынка труда. По итогу статьи мы пришли к выводам о возможности замены человека лишь в узкоспециализированных, но при этом разнообразных нишах. От распознавания документов до беспилотного такси и грузоперевозок.

Сегодня мы хотим рассказать об узком кейсе, где для автоматизации понадобилось гораздо меньше данных, а результат превзошёл все ожидания.

Проблематика

К нашей команде обратилась УК «Альфа-Капитал» с запросом на автоматизацию процесса сбора и мониторинга новостного потока. Ежедневно сотрудникам компании приходилось просматривать весь новостной фон, включающий несколько тысяч новостей о компаниях, коммерческих банках, контрагентах и ценных бумагах, в которые инвестируют клиенты компании.

Процессом занимался отдел кредитных рисков департамента анализа и управления рисками УК «Альфа-Капитал», специалисты которого собственноручно собирали новости из необходимых источников, далее фильтровали, выделяя только нужные для принятия решений. Рутинный процесс, который требовалось делать ежедневно.

Когда встал вопрос об оптимизации этого процесса — либо расширять отдел, либо обратиться к автоматизации, — ответ был очевиден. Если раньше нормой было иметь риск-менеджера на каждый вид риска, контролера, особенно в коммерческих банках, то сейчас проще автоматизировать некоторые процессы.

Однако поиск готовых продуктов на рынке в финансовой сфере не дал нужных результатов. Было принято решение о собственной разработке с привлечением команды экспертов.

Решение

Как мы уже писали ранее, машинное обучение хорошо работает тогда, когда есть размеченные данные — датасеты. В этом случае датасет заключался в разметке тысячи релевантных статей и тысячи нерелевантных. Датасет нам предоставил заказчик.

Говоря математическим языком, нам нужно решить задачу классификации, то есть разделить новости на две категории: важные для нас и неважные. Для решения задачи существует множество абстрактных математических методов, но проблема в том, что все они работают с числами.

Процесс перевода текста в числовое представление называется векторизацией. Этот процесс также можно производить различными методами. В нашем случае лучше всего подошёл TF-IDF.

Эта модель векторизации учитывает частоту вхождения слова как в отдельную новость, так и в полный перечень новостей. Например, рассмотрим слово «деньги». Алгоритм анализирует, в скольких новостях встречается «деньги», пусть это 20% (a = 0.2).

А также сколько раз встречается слово «деньги» в конкретной новости — 6% (b = 0.06). Так выглядит формула (пояснение ниже):

Так мы получили признак для слова «деньги» — 0.042, и такая процедура производится для каждого слова в наших новостях. Суть этого подхода в том, что он обесценивает общие слова, которые встречаются в большинстве новостей, и наоборот, придаёт ценность словам, которые чаще встречаются в пределах одной новости.

После получения «числового» представления новостей происходит подбор оптимального метода классификации. В этой задаче после серии экспериментов с разными алгоритмами, включая глубокие нейронные сети, лучше других оказался линейный классификатор (SGDClassifier). Это, в частности, объясняется небольшим размером датасета.

Если попытаться графически изобразить работу SGDClassifier, получим следующее:

Каждая точка в многомерном пространстве (для простоты восприятия на картинке 3D) представляет собой отдельную новость. Алгоритм строит поверхность таким образом, чтобы с одной стороны оказались важные новости, а с другой неважные.

Дальнейшее предсказание «важности» новости зависит от того, по какую сторону от этой поверхности она оказалась. Следует отметить, что размеченные новости делятся на две части. Одна часть используется для обучения алгоритма (построения поверхности), а другая часть новостей используется для проверки эффективности обученного алгоритма.

В итоговом интерфейсе это выглядит следующим образом (статьи выбраны случайно, для примера):

Релевантная новость

Нерелевантная новость

Результаты

Первый же тест на потоке свежих новостей показал точность в 75%. Модель не ограничена количеством новостей, которые она может обработать. Единственное возможное ограничение — точность распознавания, однако она повышается дообучением — обогащением датасета и добавлением новых примеров.

Сегодня точность достигает 80%. Если посчитать результат в деньгах, то 1500–2000 новостей в день должны были обрабатывать минимум три человека (при условии, что человек тратит на одну новость не более минуты). Теперь это количество сократилось до 20–30 новостей в день с учётом дублей (перепечатка одной новости разными источниками). Минимальная сумма экономии — два годовых оклада, с налогами около 3,6 млн рублей.

По результатам работы мы получили следующий комментарий.

Внедрение ИИ в риск-менеджмент — это часть дигитализации многих процессов в нашей компании, одно из самых новых и модных направлений. В нашей компании ИИ используется в кредитных рисках, чтобы правильно обрабатывать новости об эмитентах и контрагентах.
С помощью алгоритма на базе искусственного интеллекта отсеиваются неважные новости, и кредитный риск-менеджер получает на выходе ежедневные оперативные сведения.
В результате формируется база для принятия решений: риск-менеджер видит, как изменился новостной фон, на какие новости нужно обратить внимание, что можно поставить на пересмотр и какой лимит закрыть.
Вторая фаза нашего совместного проекта с командой прикладных разработок проекта iPavlov заключалась во внедрении дообучения ИИ, что по мере сбора новых размеченных данных (обогащения датасета) позволит повысить точность алгоритма, а также скорректировать его работу под текущую ситуацию на финансовом рынке.
С внедрением ИИ нам достаточно иметь одного «оператора процесса», который обладает исключительной экспертизой, досконально знает методологию, умеет вести технологические проекты. В нашем случае кредитный риск-менеджер выступает в роли гида или проводника для рабочей машины, которая выполняет рутинные операции сама.
Финансовый рынок не стоит на месте, будут создаваться новые продукты и решения, которые нужно уметь обрабатывать. Наша компания идёт по пути дигитализации, где мы отдаём машине всё, что не может (рутинные, затратные процессы) или не успевает делать человек, но без людей, естественно, пока в риск-менеджменте не обойтись.

ООО УК «Альфа-Капитал»

#машинноеобучение #искусственныйинтеллект

11 показов

5.6K открытий

6 комментариев

Написать комментарий...

golaidon golaidon

16.04.2019

Насколько я понимаю, вы можете применить подобную технологию для автоматизации маркенинговых исследований отзывов о продукте и о продуктах основных конкурентов. Или в данной задаче есть свои подводные камни?

Ответить

Развернуть ветку

Евгений Ботвиновский

16.04.2019 Автор

Добрый день, спасибо за комментарий. Можем применить. Подводные камни - это собрать датасет.

Ответить

Развернуть ветку

Константин Павлов

16.04.2019

Спасибо, интересно!
Не совсем понятен процесс сбора первичной семантики. Ведь для того, чтобы ии начал обучаться различению важных и неважных новостей, ему нужно скормить словарь важных и неважных ключевых слов. Правильно? Если да, то по каким принципам это словарь составляется?

Ответить

Развернуть ветку

Константин Павлов

16.04.2019

У меня например сейчас собран датасет в текстовом виде. Задача отсеять 95% шлака. Я бы с радостью автоматизировал отсев (например, руками профессионалов в ии), но для этого алгоритму нужно как-то объяснить что шлак, а что нет.

Ответить

Развернуть ветку

Евгений Ботвиновский

17.04.2019 Автор

Нужно просто разметить все тексты в датасете на два типа. В вашем случае - "спам" или "не спам", точно также и как в описанном кейсе. Ровно это и сделали наши заказчики. Отдельно собирать слова не требуется.
Дополнительная разметка или обогащение датасета требуется, когда точности классификации недостаточно.

Ответить

Развернуть ветку

Yegor Yeremenko

17.04.2019

Делал похожую поделку. Распарсил новостной сайт за год (брал только заголовки). Слова нормализовал и отрезал пустые слова по стоп-листу. Затем графиком нарисовал частоту упоминания этого слова за день: гипотеза в том, что если какое-то явление начинает маячить день-два, то это какой-то локальный хайп, особенно если это упоминание компании, и надо его затестить на корреляцию с ценой акции.
Нужно прикрутить named entity recognition обязательно, а то слов много, а смысла мало)

Ответить

Развернуть ветку

Написать комментарий...

3 комментария

Раскрывать всегда