Подбор параметров для построения модели для различных видов переменных
При построении моделей, не зависимо от используемого метода, выбор используемых при построении признаков оказывает значительное влияние на результат. Правильный подбор и фильтрация позволяют не только ускорить обработку данных, но и вероятно улучшить качество модели в целом. Именно поэтому правильный алгоритм определения значимых признаков играет большую роль, что и будет рассмотрено в данной статье.
Подбор признаков (Feature selection) - это процесс уменьшения количества входных параметров, используемых при построении моделей. Используя различные статистические подходы, мы можем определить взаимоотношение между признаками и целевой переменной, для определения тех переменных, которые имеют наиболее сильную связь. Однако, выбор статистических методов зависит как от создаваемой модели, так и от типов сравниваемых данных, а потому может представлять определённые трудности для разработчика. Числовые переменные Для начала рассмотрим методы, которые следует применять для работы с числовыми переменными. Если на выходе модели у нас формируется категориальная переменная (Номинальная, ординальная или класс, например), то правильным будет применять такие методы как ANOVA correlation coefficient или Kendall’s rank coefficient для линейной или нелинейной зависимости соответственно.
Пример программного кода для реализации данных алгоритмов:
Результат:
Видно, что максимальные и минимальные показатели совпадают, однако для некоторых параметров есть отличия, связанные со статическим распределением исходных параметров (currency_crises и exch_usd, например).
В случае, когда на выходе тоже получается числовая переменная, распространённо применяются коэффициенты Пирсона (Pearson's) или Спирмана (Spearman's), для линейных и нелинейных методов соответственно.
Результат:
Результаты на синтетическом примере получаются похожими, но всё равно видно отличие полученных значений в зависимости от используемого коэффициента.
Категориальные переменные:
Случаи, когда у нас встречаются категориальные переменные, но при этом выходная переменная числовая можно рассматривать так же, как и в первом примере, случаи где у нас выходная переменная категориальная, а входные – числовые. Осталось рассмотреть пример для случая, когда у нас и входные и выходные переменные категориальные. И для этого можно использовать Chi-Squared test или Mutual Information.
Пример кода:
Полученный в данном случае результат:
Видно, что самые высокие показатели совпадают между двумя подходами, однако в других параметрах имеются различия. Всегда имеет смысл проверять насколько хорошо мы определили наши параметры для модели хотя бы на выборке из датасета, подавая нужные параметры в нашу модель и оценивая её точность.
Выбор используемых параметров играет большую роль в качестве получаемой нами модели и скорости её работы, так что немаловажно правильно оценивать, какие из переменных наиболее важны. Здесь был представлен лишь небольшой набор возможных к использованию методов определения корреляции. Кроме того, всегда важно понимать, что это лишь один из способов отбора параметров и не рассматривает сложные взаимосвязи между переменными, поэтому самым основным параметром оценки качества по-прежнему остаётся итоговая точность и качество работы модели на реальных данных. Однако, отбор переменных может быть хорошим подспорьем в процессе разработки.