Парадокс Симпсона (но не Барта из "Симпсонов")

Добрый день, дорогие любители статистики!

Сегодня рассмотрим парадокс Симпсона (также парадокс Юла — Симпсона или парадокс объединения) — явление в статистике, когда при наличии двух групп данных, в каждой из которых наблюдается одинаково направленная зависимость, при объединении этих групп направление зависимости меняется на противоположное.

Суть парадокса: решение, которое является лучшим для каждой из групп, не является таким для объединённой группы.

Явление было описано Эдвардом Симпсоном в 1951 году и Удни Юлом в 1903 году, хотя они не были первооткрывателями.

Вот классический и наглядный пример парадокса Симпсона, который часто используется для объяснения этого явления.

Представим, что в университете есть три факультета: математический, филологический и дизайна. В приёмную комиссию поступают заявления от мужчин и женщин. Посмотрим на процент поступивших:

График будет такой:

Диаграмма доля по количеству поступивших в разрезе факультетов

Если мы разобьем общее количество поступивших на количество поступивших мужчин и женщин, то получим цифры:

Данные о поступлении в разрезе количества мужчин и женщин

Диаграмма доля поступивших мужчин в разрезе факультетов

Парадокс Симпсона иллюстрирует неправомерность объединений нерепрезентативных выборок без учёта систематического перекоса выборки данных.

Почему так происходит?

Парадокс Симпсона возникает, когда данные по подгруппам дают один вывод, а при объединении — противоположный. Это происходит из-за разного распределения заявок между факультетами: мужчины чаще подают на факультет с более высоким процентом поступления, а женщины — на факультет с более низким.

Такой пример хорошо иллюстрирует, почему важно анализировать данные не только в целом, но и по группам.

Чтобы избежать парадокса Симпсона, рекомендуется:

Выявлять и учитывать скрытые переменные. Например, использовать стратификацию — анализировать данные в однородных группах, а затем тщательно взвешивать и объединять результаты.
Использовать многомерный анализ — он позволяет учитывать несколько факторов одновременно и помогает изолировать эффект каждой переменной на результат.
Использовать статистические модели (например, регрессионный анализ) — они позволяют включать несколько независимых переменных, что помогает понять связь между конкретной переменной и результатом, сохраняя другие переменные постоянными.

Парадокс Симпсона (но не Барта из "Симпсонов")

Пример парадокса Симпсона