Алгоритм балансировки классов Smote
Во время обучения модели столкнулись с несбалансированными данными? Расскажем вам об инструменте, который поможет решить данную задачу.
При создании модели, с применением методов ML и использования модели с учителем, можно столкнуться с проблемой несбалансированности классов в обучающей выборке.
В Dataset количество записей одного класса может быть очень мало, а другого класса, наоборот, велико. В результате, при использовании алгоритмов ML, чувствительные к балансу классы алгоритма переобучаются.
Для решения таких задач, как правило, применяется Oversampling или задаются веса определенному классу.
При решении нашей задачи, классы в которой были крайне несбалансированны, удалось достичь улучшения метрик модели путем применения алгоритма.
Представленный алгоритм генерирует определенное количество похожих примеров класса с меньшим количеством данных, но при этом не дублирует данные в этом классе.
Такой алгоритм балансировки классов называется SMOTE (Synthetic Minority Oversampling Technique).
Ниже приведен пример применения балансировки классов: