MagicScore

Технологии анализа социальных связей в качестве Антифрод-решения

Сегодня я расскажу вам про один из продуктов MagicScore – антифрод-алгоритм, основанный на графах социальных связей.

Всем известно, что особую опасность в онлайн-сегменте представляют не одиночные, а именно массированные фрод-атаки, когда мошенническая группа может состоять из десятков или даже сотен человек. Потери от таких организованных фрод-атак могут быть очень существенные, вплоть до закрытия бизнеса, поэтому перейдём к актуальному.

В чем суть графового алгоритма?

Мы строим ненаправленный взвешенный граф. Вершины — это отдельные заявки. Рёбра графа — это потенциальные связи между заявками, основанные на каком-либо правиле.
Например. В двух заявках был использован один и тот же номер телефона. Но в заявке А он указан как номер заявителя, а в заявке Б — как номер контактного лица. В данном случае будет создано ребро в графе на основании совпадения номеров телефонов. При этом вероятность того, что данное ребро свяжет две несвязанные [в действительности] заявки, весьма мала. Такую связь можно считать сильной.

Иллюстрация графа связей

Второй пример. В ежедневном потоке заявок с некоторого ip-адреса может приходить по одной заявке раз в несколько дней. С другого ip-адреса может заводиться по одной-две заявки в день или даже более. Но в какой-то из дней нам пришло 10 заявок с ip-адреса, по которому в среднем в день приходит одна-две заявки. В данной ситуации о случайности говорить не приходится, но при этом в эту десятку заявок могут попасть и одна-две или даже три случайные заявки, которые никак не связаны с остальными, пришедшими в данный конкретный день с данного ip-адреса. А остальные, очевидно, связаны. При этом вероятность того, что данное ребро свяжет две в действительности несвязанные заявки, уже не столь мала. Такая связь называется неявной. В данном случае будет создано ребро в графе на основании совпадения по ip-адресам. И вес данного ребра будет ощутимо меньше единицы (и будет зависеть от того, насколько больше по сравнению с обычным днём пришло заявок с данного ip-адреса).

Также надо понимать, что если первый заёмщик по каким-либо признакам связан со вторым с вероятностью 0.95, второй с третьим — с вероятностью 0.75, а третий с четвёртым — с вероятностью 0.6, то мы предполагаем, что первый связан с четвёртым с вероятностью примерно 0.43. Так строится граф. То есть по сути, по итогу построения графа, мы имеем цепь Маркова.

Структура входных данных

У нас есть определённый максимальный набор данных, который мы можем принять на вход в алгоритм. В случае заинтересованности документацию с этими полями мы всегда высылаем, но в конечном счёте всегда отталкиваемся, разумеется, от того, какие данные есть у клиента, потому что исходный список довольно широк. Замечу только, что очень хороший прирост качества модели дают данные, собираемые мобильным приложением микрофинансовой организации, если таковое имеется. Например, данные контактной книги заёмщика, которые позволяют провести большое количество связей и очень хорошо обогатить граф. Также данные об установленных приложениях, о системной информации и прочие. Поэтому, если мобильное приложение есть, то есть и очень хороший потенциал для улучшения качества работы алгоритма.

Впрочем, отсутствие мобильного приложения проблемой не является, алгоритм работает и без него. Использовать алгоритм рекомендуется перед скорингом для отсечения как раз-таки самого худшего мошеннического потока, хотя в некоторых случаях результат работы алгоритма можно использовать и как переменную для скоринговой модели — это уже индивидуально.

А в чём же ценность этого сервиса, чем хуже уже имеющиеся классические методы скоринга, в том числе антифрод-скоринга?

В сущности, ценность сервиса заключается в данном алгоритме, в тех параметрах, на основании которых проводятся связи и, самое главное, в том, что мы имеем на выходе. В данном случае речь идёт о создании совершенно иной структуры данных, которая позволяет создавать новые нетривиальные переменные, которые невозможно создать с помощью обычных методов анализа данных. Потому что просто логистической регрессией, градиентным бустингом и нейронными сетями сейчас никого не удивить, это умеют делать многие, хоть и с разным уровнем качества. Также как многие умеют создавать сложные переменные из анкетных данных, данных БКИ и иных источников.

В нашем случае так называемый best practice на рынке отсутствует, то есть речь идёт о решении, которое предоставляет альтернативную оценку заёмщика на предмет мошенничества и слабо коррелирует со скоринговыми моделями микрофинансовой организации. А значит, может дать прирост качества, так как не дублирует имеющуюся систему принятия решений. Так сказать «Особое мнение в сфере оценки заёмщиков».

Таким образом, я не говорю о том, что наш сервис лучше или хуже тех решений, которые уже есть на рынке, я ни в коем случае не сравниваю их качество. Ключевой момент (и это очень важно!), что данный алгоритм даёт именно альтернативную оценку заёмщика, которая позволяет дополнить имеющуюся систему принятия решений с приростом качества. Дополнить, а не заменить, так как классический скоринг, несомненно, очень важен, потому что социальный дефолт никто не отменял, как и лимитную политику, во многих случаях «завязанную» на скоринг.

Также замечу, что несмотря на сложную структуру и высокие требования к вычислительным мощностям, на обработку одного запроса уходит не более секунды, даже при очень большом объёме входного потока.

А вы используете сторонние сервисы для оценки своих заемщиков?
Нет, у нас in-house разработка
Да, и постоянно тестируем новые решения, ищем лучшие практики на рынке
Используем только классический скоринг, Антифрод решения нет
Не задумывались ранее, но теперь готовы рассмотреть 
Показать результаты
Переголосовать
Проголосовать

Устойчив ли алгоритм во времена кризиса?

Представим себе заёмщика с хорошей анкетой, хорошей кредитной историей и хорошими параметрами из иных источников данных. Очевидно, у такого заёмщика будет хороший скоринговый балл и низкая просрочка в обычное время. Но как только наступает глобальный кризис, у него резко возрастает риск увольнения, сокращения зарплаты и иных неурядиц, следовательно, резко повышается риск дефолта, а скоринг остаётся хорошим. Статистики кризисного периода ещё нет, новый скоринг построить не представляется возможным, поэтому приходится как-то закручивать имеющийся скоринг, который стал хуже делить.
Поведение же мошенников в кризисное время глобально не меняется, увеличивается, как правило, частота и масштаб их атак. А если не меняется поведение, то не будет глобально меняться и качество алгоритма. Да, мошенники придумывают более изощрённые схемы, но они делают это постоянно, так же как и мы постоянно разрабатываем новые параметры и дорабатываем алгоритмы для того, чтобы эти схемы раскрыть. Это процесс непрерывный и происходящий не только в кризисное время. А учитывая, как упоминалось ранее, увеличение масштаба фрод-атак, наш алгоритм становится особенно актуальным.

Конфиденциальности данных

Все персональные данные заёмщика мы получаем в захэшированном виде, то есть мы не работаем с персональными данными заёмщика. Как это происходит?
Мы передаём на сторону клиента специальную программу — хэшер с открытым кодом, которую клиент уже сам запускает на своей стороне. На вход программы передается набор данных о заемщике, в том числе и персональных, а на выходе программа эти данные шифрует и возвращает результат, где все все персональные данные полностью анонимизированы. Таким образом мы на своей стороне получаем только хэши персональных данных.

При этом мы не знаем так называемую «соль» (ключ к расшифровке) хэша, она известна только на стороне клиента. Иными словами, мы никак не можем декодировать данные от разных микрофинансовых организаций, так как все они захэшированы разной «солью». Это принципиальный момент, благодаря которому наши клиенты спокойны за персональные данные своих заёмщиков. Нам же, для того, чтобы провести связь, не нужно знать, какое конкретное значение принимает полученный нами агрегат, нам важно лишь понимать, есть ли такое же значение среди более ранних заявок клиента или нет.

Большое спасибо за внимание к статье, если она показалась вам интересной, не забудьте поставить лайк и подписаться на наш блог. 😉

Для получения подробного описания работы наших сервисов и интеграции с ними, пожалуйста, пишите в ЛС.

{ "author_name": "MagicScore", "author_type": "self", "tags": [], "comments": 4, "likes": 3, "favorites": 22, "is_advertisement": false, "subsite_label": "unknown", "id": 188249, "is_wide": true, "is_ugc": true, "date": "Mon, 01 Feb 2021 00:38:35 +0300", "is_special": false }
0
4 комментария
Популярные
По порядку
1

Покритикую
"В нашем случае так называемый best practice на рынке отсутствует"
Вообще ни разу:
1. есть аналоги, вот просто на вскидку
https://doubledata.ru/production.html#wrap_tabs
https://www.nbki.ru/company/news/?id=21661
Ну и еще с пяток компаний минимум ( см. скриншот ) 
2. многие делают сами ( при чем довольно успешно ), не понятно чем вы лучше или что дадите нового в этом случае ? ( скорость, новые переменные, точность, дешевле..... )

Никаких объективных предпосылок в статье:
- ни цифр
- ни бенчмарков ( например, " если делаете сами, то это требует ...., а с нами это требует .... в итоге вы выигрываете ..... " )

"Поведение же мошенников в кризисное время глобально не меняется, увеличивается, как правило, частота и масштаб их атак."
Тут вы на 100% правы, но собственно метод который вы описывает существует 100 лет в обед, поэтому и в кризис ничего не изменится.

Тема нераскрыта!

Ответить
0

Дмитрий, большое спасибо, что нашли время написать такой подробный комментарий к статье.
Постараюсь ответить:

1)"По поводу «best practice».
Мы не говорим, что решения по поиску социальных связей отсутствуют, но в данном случае речь идёт именно о нашем подходе.
Best practice подразумевает некий устоявшийся подход, изученный вдоль и поперёк, как, например, метод максимального правдоподобия для логистической регрессии.
Здесь же поиск именно оптимального решения, на наш взгляд, продолжается.

2)По поводу того, чем мы лучше.
В тексте как раз говорится, что мы не лучше и не хуже, мы даём именно альтернативную оценку за счёт иного подхода, а значит можем давать аплифт качества. Разумеется, для каждого отдельного случая этот аплифт надо тестировать, т.к. в зависимости от набора сервисов и иных параметров он может сильно отличаться. Именно поэтому в статье нет конкретных цифр, с нашей стороны было бы не совсем корректно приводить их пример, поскольку они могут отличаться от случая к случаю.

3)По поводу того, что метод существует уже давно. Да, так и есть, но, как было написано, речь идёт исключительно о нашем подходе к данному методу и его реализации."

Ответить
0

Ну в общем понятно...
Удачи вам!

Ответить
0

Уважаемые читатели, кликнувшие в опросе на пункт «...готовы рассмотреть», будем рада запустить с вами пилот и доказать эффективность сервиса на ваших примерах. За подробностями просим обращаться по почте info@magicscore.ru

Ответить

Комментарии

null