Цена риска: как сделать страхование удобным для пользователя и выгодным для бизнеса

Разбираемся с помощью data science на примере автострахования.

В закладки

«Риск — как огонь. Если он под контролем, то поможет тебе, а иначе вспыхнет и уничтожит тебя». Это известное изречение Франклина Делано Рузвельта. Страховой бизнес — это постоянная работа «с огнем», то есть поиск баланса между рисками и доходностью.

В современном цифровом мире успех в прогнозировании страховых рисков напрямую зависит от выбора данных для анализа (а обычно их очень много) и от того, какие инструменты используют для работы с этими данными. В сегодняшней статье мы расскажем, какие подходы могут помочь найти компромисс между бизнес-интересами страховых компаний и потребностями их клиентов в качественном сервисе по обоснованной цене.

Страховые уходят в интернет

В странах Западной Европы рынок прямого страхования растет на 8% в год, а в Восточной Европе — на 36%*. Во многом этот рост обеспечивается за счет развития собственных онлайн-каналов страховщиков. Сами они экономят на операционных расходах и комиссиях брокерам, а клиенты не тратят время на посещение офиса или общение с агентом.

Крупная российская страховая компания запланировала выход на B2C-рынок прямого автомобильного страхования (на конец прошлого года доля прямого автомобильного страхования в России составляла 19%*). Чтобы реализовать эту задачу, команда компании совместно с McKinsey разработала новый цифровой продукт.

Для пользователя это сайт и мобильное приложение, где он может самостоятельно купить полисы КАСКО и ОСАГО. При наступлении страхового случая пройти весь путь урегулирования от начала до конца можно тоже полностью самостоятельно онлайн.

В “сердце” проекта — предиктивная модель, которая позволяет индивидуально рассчитывать стоимость полиса. Как именно? Об этом речь пойдет немного ниже, а для начала немного контекста.

* По данным исследований рынка, проведенных McKinsey.

Thinking out of the chocolate box, или при чем здесь Форрест Гамп

Ключевой бизнес-процесс в любой страховой компании — это андеррайтинг. Андеррайтер анализирует риски и принимает решение страховать их или нет, а если да, то на каких условиях. От того, насколько хорошо он выполняет свою работу, зависит прибыльность страхового портфеля его работодателя.

Если набрать в поисковой строке Google запрос underwriting is like, то на первых страницах выдачи несколько раз встретится переиначенная цитата из фильма «Форрест Гамп»: «Андеррайтинг как коробка шоколадных конфет. Никогда не знаешь, какая начинка тебе попадётся».

Конечно, это некоторое преувеличение. Андеррайтер не оценивает риски наугад — в его арсенале математическая статистика и обобщенные линейные модели. С помощью моделей прогнозируется предполагаемое число страховых случаев, их частота и убытки в разных разрезах.

Основные риски в автостраховании — повреждение и угон. Обычно их оценивают, следуя несложной логике. Из стандартного набора факторов (возраст автомобиля, марка, модель, мощность и объем двигателя, возраст и пол собственника, его семейное положение и так далее) формируются повышающие и понижающие коэффициенты, на которые затем умножается базовая премия.

В целом при совпадении у водителей небольшого числа базовых параметров традиционные страховые компании устанавливают схожие тарифы.

«Совы не то, чем кажутся»

Но не все источники потенциальных рисков попадают в поле зрения страховых компаний. Обобщенные линейные модели часто используют в самом базовом варианте, и факторы, которые влияют на риски, рассматриваются независимо друг от друга, связи между ними не анализируются.

То есть одни и те же коэффициенты за возраст будут применять для любого водителя независимо от того, на какой он ездит машине, а коэффициент за детей — независимо от их возраста. Только вот на деле все несколько сложнее, и логика не всегда линейная. Приведем несколько примеров.

Риск повреждения, возраст водителя и марка автомобиля

Обычно все водители 22–24 лет получают одинаковый повышающий коэффициент к базовому тарифу относительно водителей 30–33 лет. Но оказалось, что в этих возрастных группах риск будет разным для разных марок автомобиля. И различия существенные.

Риск повреждения и штрафы разных категорий

В Москве множество дорожных камер, и данные с них доступны через официальные API городского Департамента информационных технологий. Для водителей, которым регулярно приходят штрафы, риск попадания в ДТП почти на 40% выше, чем для тех, у кого штрафов нет.

При этом наличие штрафов некоторых типов еще лучше позволяет дифференцировать уровень риска. Выезд на встречную полосу, проезд на красный свет, превышение скорости более чем на 40 км/ч или езда без ОСАГО — все это существенно увеличивает вероятность попадания в ДТП.

Риск угона и цвет автомобиля

Из статистики угонов премиальных автомобилей видно, что на их вероятность влияет цвет, так как дорогие машины обычно угоняют под заказ, а не на запчасти. Относительный риск угона черного дорогого автомобиля в несколько раз выше, чем белого.

Если страховая компания знает, как на первый взгляд не связанные друг с другом факторы на деле взаимодействуют между собой в совокупности с данными, которые не входят в традиционный набор для расчета коэффициентов, глубина понимания профиля клиентов и возможных рисков оказывается совсем иной.

Data sсience вместо демпинга

Начиная работу над проектом, мы провели несколько исследований. Выводы показали, что для потенциальных клиентов страховой компании надежность и цена — факторы, которые влияют на решение о покупке полиса больше всего.

Как предложить человеку хорошую цену? Просто демпинг — малоэффективная стратегия. Комбинированный коэффициент, который включает затраты на привлечение клиентов и урегулирование страховых случаев, может перевалить за 100% — и где тогда доход? Чтобы без демпинга иметь конкурентное преимущество в ценообразовании и тарифицировать «по-умному», жизненно необходимо сделать андеррайтинг лучше, чем в среднем по рынку.

Для этого мы обратились к инструментам углубленной аналитики данных. Нам было нужно добиться ценовой дифференциации — выделить сегменты «плохих» и «хороших» водителей и проследить, какие факторы и взаимосвязи между ними влияют на риски. А теперь немного углубимся в data science.

Как датасаентисты строили модель

Что надо было предсказать

Целевая функция модели — факт ДТП в течение одного года. Для нас было достаточно бинарного факта ДТП, поскольку даже одна авария в 12 месяцев случается нечасто, а более одного ДТП — еще бо́льшая редкость.

Технологии в проекте

Мы использовали фреймворки для градиентного бустинга СatBoost и LightGBM. Во многом выбор пал именно на эти инструменты, так как они позволяют работать с категорийными переменными. LightGBM еще и очень быстро обучается, поэтому с ним удобно экспериментировать с гиперпараметрами и другими степенями свободы для поиска оптимальных значений на этапе построения.

ROC AUC — способ оценки результата работы алгоритма на фиксированной тестовой выборке. ROC-кривая (англ. Receiver Operating Characteristic curve), или кривая ошибок, позволяет оценить качество бинарной классификации. AUC (англ. Area Under Curve), или площадь под кривой ошибок, дает количественную интерпретацию ROC.

За счет сочетания двух фреймворков нам удалось добиться более высокой стабильности в поведении модели и улучшить ROC AUC в финальной оценке на 1 п. п. Это эквивалентно примерно 1–2 п. п. коэффициента убыточности и существенно для бизнес-модели страховой компании, так как может увеличить прибыль на 10–20%.

Источники данных и оптимизация факторов в обучении

Мы использовали данные Департамента информационных технологий о регистрации автомобилей, ДТП и штрафах, данные телеком-операторов и интернет-сервисов. Данные от партнеров мы получали в формате вероятностных оценок, сделанных на основе наших обучающих выборок и параметров построения.

Модель обучалась на десятках факторов. Количество ДТП; длительность владения автомобилем текущим собственником; риск-скоры и оценка частоты поездок от партнеров; информация по штрафам; цвет и страна сборки авто; количество предыдущих собственников; район проживания владельца — это только некоторые из них.

Факторы в обучении оптимизировались. На старте в модель загонялось максимальное количество переменных, затем они сортировались по значимости и те, которые не влияли на точность результата, исключались. СatBoost и LightGBM давали при этом похожую оценку значимости факторов. Мы протестировали около 15 различных источников данных, из которых только пять действительно позволили улучшить точность прогноза.

Первичное обучение, тестирование и валидация

В рамках периода с 2014 по 2018 год мы составили большой сэмпл данных, где для каждой строки (наблюдения) были известны постпериод в один год и предыстория с момента первой регистрации автомобиля. Так как люди покупают страховые полисы близко ко времени регистрации, мы выбрали для обучения модели соответствующие моменты времени.

Сэмпл стандартно делился на три датасета. На первом модель обучалась и строилась; на втором — тестировалась и автоматически проверялась на отсутствие переобучения; на третьем — автоматически валидировалась в части характеристик ROC AUC.

Балансировка и обеспечение стабильности модели

Данные из внешних источников не были идеальными и изменялись во времени, поэтому датасеты приходилось балансировать. Например, количество фактов ДТП со временем уменьшалось, так как увеличивалась популярность европротокола. Количество камер на дорогах, а вместе с тем и число штрафов у автомобилистов, напротив, увеличивалось. Для выбора оптимального «нулевого момента» приходилось балансировать между наиболее информативной предысторией и правильной целевой функцией.

Абсолютные значения переменных также не являются стабильными. Тех же штрафов за несколько лет стало в 2–3 раза больше. В итоге в качестве переменной мы использовали долю штрафов с нарушениями по нескольким категориям, так как доля — стабильный показатель, который не зависит от количества камер.

Вообще на этом проекте довольно часто приходилось иметь дело с аномалиями, которые грозили заставить модель переобучиться. В основном это решалось объединением данных в крупные кластеры. Вот в этом посте мы подробно рассказывали, какие методы применяют датасаентисты McKinsey для борьбы с аномалиями.

Четыре сложности

1. Сбор данных для построения модели. Приходилось постоянно экспериментировать с большим количеством данных и опытным путем выяснять, что работает, а что нет.

2. Функционирование в режиме реального времени. Модель не решала задачу разового анализа, а должна была работать постоянно, что предъявляет массу дополнительных требований к стабильности и обработке любых исключений.

3. Feature engineering. В практике датасаентистов задача качественного отбора и создания признаков часто является одной из наиболее сложных. Так вышло и тут. На проекте было много разнородных данных, а не просто набор числовых значений, которые нужно загрузить и проверить в разных комбинациях. Приходилось решать, как грамотно объединять переменные в классы; придумывать, какие переменные строить на географии поездок или информации о предыдущих собственниках и т. п.

4. Качество данных. Во-первых, они не приходили к нам в табличном виде. Обработать набор разноплановых JSON — само по себе большая работа. Во-вторых, часто данные были сырыми. Приходилось либо валидировать информацию, полученную из нескольких источников, и формировать единый чистый датасет, либо балансировать модель, если проблема была структурная по всем источникам.

JSON (JavaScript Object Notation) — текстовый формат обмена данными, основанный на подмножестве языка программирования JavaScript.

Промежуточные итоги

Работа над моделью — итерационный и непрекращающийся процесс. Сейчас она интегрирована в продакшн и автоматически подтягивается в продуктивный микросервис расчета страховой премии с GitHub.

Раз в несколько месяцев модель перестраивается по мере того как меняются внешние источники или появляется дополнительная информация внутри проекта. Процесс пока не полностью автоматизированный, но типизированный: написаны все скрипты обработки, и данные, полученные из источников, автоматически собираются в новый датасет с нужными корректировками.

Мы подвергали модель бизнес-валидации, то есть сравнивали ее прогнозы с дифференциацией убыточности по базам КАСКО и ОСАГО страховой компании-клиента. С начала разработки точность прогнозирования модели по ROC AUC увеличилась на 8 п. п.

Что с этого страховой компании и пользователям?

Углубленная аналитика позволила нам выделить микросегменты с различными уровнями риска в группах, которые не дифференцируются обычными страховыми компаниями. На калькуляцию предиктивной модели накладывается еще несколько параметров, и конечная стоимость полиса формируется с учетом конкурентной ситуации, типа клиента и его индивидуальной чувствительности к цене.

Благодаря этому страховая компания получила возможность сфокусироваться на привлечении наименее рисковых клиентов и оптимизировать портфель, а хорошие водители — купить полис более выгодно. Ценовые исследования уже сейчас позволяют сказать, что для 70% водителей стоимость полиса до 30% ниже, чем в среднем по рынку. Для остальных — на 10–15% выше, но для этого всегда есть обоснованные причины.

Выводы

Почти все игроки на рынке страхования понимают ценность data science, и словами «анализ данных» или «машинное обучение» здесь никого не удивить. Но к методам оценки рисков и разработки тарифов за рамками проверенных годами решений на базе линейной логики с привычным набором коэффициентов многие пока относятся с недоверием. Тем временем технологии работы с данными совершенствуются, и если традиционные страховые компании не будут принимать это во внимание, то им придется тяжело в конкурентной борьбе.

Конечно, о точечных предсказаниях в страховании говорить пока рано — это все еще вероятностная история. Но для того, чтобы риски из огня не превратились в пожар, а андеррайтинг был похож не на выбор шоколадных конфет, а на сбор пазла, где каждый кусочек — значимые данные, сегодня есть все необходимое.

Материал опубликован пользователем.
Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать
{ "author_name": "McKinsey Advanced Analytics", "author_type": "editor", "tags": [], "comments": 12, "likes": 5, "favorites": 35, "is_advertisement": false, "subsite_label": "transport", "id": 98855, "is_wide": false, "is_ugc": false, "date": "Wed, 25 Dec 2019 13:43:16 +0300", "is_special": false }
0
12 комментариев
Популярные
По порядку
Написать комментарий...
1

Коллеги, давайте я покажу вам пример, "Как правильно читать бравурные статьи, автор которых чуть менее чем полностью не разбирается в предмете" ?

Итак, тема статьи - автострахование.
О какой проблеме говорят, пишут, буквально стонут сотрудники НАСТОЯЩИХ страховых компаний?
(минута на обдумывание)
Автоюристы!
Уважаемый топикстартер слышал про автоюристов?
ТС слышал, что крупные страховые компании отказываются продавать страховые полисы жителям Ростовской, Волгоградской областей и Дагестане, где ушлые автоюристы в сговоре с родственниками-судьями раздевают страховщиков "до нитки" ?
Похоже что нет, потому что в статье нет ни одной комбинации слов "авто" и "юристы". Нет географических названий типа "Ростов-папа", "Волгоград" и "Даги-сила".
Делаем вывод: автор статьи - "ненастоящий сварщик" (с).
Нас обманули.
Расходимся.

Ответить
0

Странно. Исходя из деятельности страховых компаний - 80% выплаты автоюристам - вывод средств из компании в фонды близкие бенефициарам страховых.

Одновременно и расходы повышаются и одновременно основания для роста тарифов появляются

Ответить
0

Евгений, если вы такой осведомлённый в тонкостях российского страхования - напишите, пожалуйста, статью про "бизнес страхования по-русски".

Будет очень интересно почитать про оценку роли автоюристов "с другой стороны" прилавка.
Пусть этим маменьким сынкам из Мак-Кинзи будет стыдно за "списанную" работу ! (не все рефераты, скачанные из интернета, одинаково полезны).
Тщательнее надо ! (с)

Ответить
0

Ну и чтобы два раза не вставать:

Господа из компании Мак-Кинзи!
Если у вас осталась хоть капелька стыда - ещё не поздно добавить к своей статье пару абзацев "про автоюристов и их роль в развале российского рынка страхования".
Или вам слабо?

Ответить
0

Зачем писать то что и так на поверхности?

Достаточно открыть отчётность Росгостраха и удивиться показателям до санации и после - при неизменном присутствии на рынке автострахования в "условиях засилия автоюристов"...

Ответить
0

Каждый Дон Кихот сражается со своей мельницей. На мой взгляд автор убедительно и с огоньком расписал обстановку на его участке фронта, за что ему большое спасибо

Ответить
0

А какой AUC в итоге? 

Ответить
0

Интересно, какая точность в итоге у вас получилась?

Ответить
0

0,7*0,7+0,3*1,15= 0,835.

Или -15% от средний цены полиса на рынке.
Но 20% - расходы на клиента при оффлайн продаже 
Итого: мы перешли в оффлайн и соразмерно снизили тариф, подкрутив его так чтобы отклонить черных владельцев (все таки оферта же - отказаться не можем)...
А так круто ..

Ответить
0

Очень круто 👍🏻

Ответить
0

Правильно понимаю что roc auc = 0.835 ? 

Могли бы пояснить переменные 0.7;0.7;0.3;1.15 ? 

Ответить
0

Вы слишком про математику...

Любая математическая и статическая теория ценна практическим приложением
Демпинг (снижение цен) был не интересен. И было потрачено некое количество времени и денег.
Как результат. - результат это выручка.
"Ценовые исследования уже сейчас позволяют сказать, что для 70% водителей стоимость полиса до 30% ниже, чем в среднем по рынку. Для остальных — на 10–15% выше"  это 0,7*0,7+0,3*1,15... То есть выручка компании относительно средних цен упала за счёт снижения тарифов на 15% (демпинг все таки есть).

Но такое падение выручки допустимо из-за переезда на менее затратный канал продаж с отказом от комиссий агентам и расходов на персонал. Фактически такое снижение тарифов можно было осуществить сразу. Как и введение запретительных тарифов для рисковых страхователей чтобы избежать перетока в начальной стадии дистанционных продаж 

Ответить

Прямой эфир