Поведение разных поставщиков в некоторых случаях различается кардинально. Так, транзакции по таким поставщикам программного обеспечения как Microsoftмогут исчисляться в сотнях миллионов рублей, в то время как местный поставщик недорогой компьютерной периферии может осуществлять небольшие поставки на незначительные суммы. Поэтому, первым шагом анализа является группировка поставщиков со схожим поведением в кластеры. Каждый кластер объединяет поставщиков с близкими показателями по суммам поставок, частоте оплат, а также длительности отношений с банком. Далее, я рассчитываю центроид каждого кластера и расстояние между центром кластера и каждым конкретным значением признака или переменной в кластере. Чем ближе значение признака находится к центру кластера, тем более типичным это значение является для данного кластера и наоборот, значения, максимально удаленные от центра, являются аномальными и могут расцениваться как подозрительные. Затем, я устанавливаю пороговые значения рассчитанных расстояний (97 процентилей), в пределах которых значения переменных являются типичными или нормальными для поставщиков конкретного кластера. В заключении, я помечаю значения переменных, которые превысили установленные пороговые значения как аномальные (схема 1).
👍
👍