Парадокс Симпсона (но не Барта из "Симпсонов")
Добрый день, дорогие любители статистики!
Сегодня рассмотрим парадокс Симпсона (также парадокс Юла — Симпсона или парадокс объединения) — явление в статистике, когда при наличии двух групп данных, в каждой из которых наблюдается одинаково направленная зависимость, при объединении этих групп направление зависимости меняется на противоположное.
Суть парадокса: решение, которое является лучшим для каждой из групп, не является таким для объединённой группы.
Явление было описано Эдвардом Симпсоном в 1951 году и Удни Юлом в 1903 году, хотя они не были первооткрывателями.
Вот классический и наглядный пример парадокса Симпсона, который часто используется для объяснения этого явления.
Пример парадокса Симпсона
Представим, что в университете есть три факультета: математический, филологический и дизайна. В приёмную комиссию поступают заявления от мужчин и женщин. Посмотрим на процент поступивших:
График будет такой:
Если мы разобьем общее количество поступивших на количество поступивших мужчин и женщин, то получим цифры:
Парадокс Симпсона иллюстрирует неправомерность объединений нерепрезентативных выборок без учёта систематического перекоса выборки данных.
Почему так происходит?
Парадокс Симпсона возникает, когда данные по подгруппам дают один вывод, а при объединении — противоположный. Это происходит из-за разного распределения заявок между факультетами: мужчины чаще подают на факультет с более высоким процентом поступления, а женщины — на факультет с более низким.
Такой пример хорошо иллюстрирует, почему важно анализировать данные не только в целом, но и по группам.
Чтобы избежать парадокса Симпсона, рекомендуется:
- Выявлять и учитывать скрытые переменные. Например, использовать стратификацию — анализировать данные в однородных группах, а затем тщательно взвешивать и объединять результаты.
- Использовать многомерный анализ — он позволяет учитывать несколько факторов одновременно и помогает изолировать эффект каждой переменной на результат.
- Использовать статистические модели (например, регрессионный анализ) — они позволяют включать несколько независимых переменных, что помогает понять связь между конкретной переменной и результатом, сохраняя другие переменные постоянными.