Корреляция или причинно-следственная связь: в чем разница?

Я люблю данные, и мне нравится их изучать. Поэтому специально для digital-агентства «Интериум» я перевел статью emplifi. io о различии между корреляцией и причинно-следственной связью. Анализируя, например, данные из соцсетей, и, спутав корреляцию и причинно-следственную связь в действиях пользователей или развитии трендов, можно прийти не к тем выводам. Давайте разберёмся, а в конце небольшой пример из нашей практики.

Существует немало статей, в которых содержатся дикие, часто насмешливые выводы, полученные в результате двух сильно коррелирующих наборов данных. Например, Harvard Business Review однажды рассмотрел примеры, показывающие «возможность» того, что:

  • Тратя больше денег на просмотр спортивных матчей, вы снижаете вероятность употребления кукурузного сиропа с высоким содержанием фруктозы.

  • Чем больше продано iPhone, тем больше людей погибнет, упав с лестницы.

Это крайние примеры. Корреляция не обязательно подразумевает причинно-следственную связь, и эти примеры показывают опасность непонимания разницы между корреляцией и причинно-следственной связью в реальном мире. В этих случаях требуется дополнительная проверка, прежде чем корреляцию можно будет квалифицировать как причинно-следственную связь.

В чем разница между корреляцией и причинностью?

Начнем с основ. Каково определение причинно-следственной связи по сравнению с корреляцией?

Что такое корреляция?

Австралийское бюро статистики дает отличное определение корреляции:

«[Это] статистическая мера (выраженная в виде числа), которая описывает размер и направление взаимосвязи между двумя или более переменными».

Другими словами, изменение одной переменной обычно отражается положительным или отрицательным изменением другой.

Какие существуют типы корреляций?

  • Положительная корреляция: переменные A и B движутся в одном направлении. Например, по мере увеличения переменной A растет и B.

  • Отрицательная корреляция: переменные A и B движутся в противоположных направлениях. Например, когда переменная A увеличивается, B уменьшается.

  • Нет корреляции: нет очевидной связи между переменными A и B.
Положительная корреляция, отрицательная и её отсутствие 
Положительная корреляция, отрицательная и её отсутствие 

Сила линейной связи между двумя переменными, также называемая коэффициентом корреляции, может варьироваться от -1 (отрицательная корреляция) до 1 (положительная корреляция). Чем ближе коэффициент корреляции к -1 или 1, тем сильнее связь. А коэффициент, равный 0, указывает на отсутствие корреляции между двумя переменными.

Однако корреляция не обязательно означает, что переменные обязательно связаны. Это подводит нас к причинно-следственной связи…

Что такое причинно-следственная связь?

Австралийское статистическое бюро определяет причинно-следственную связь следующим образом:

«…одно событие является результатом возникновения другого события, т. е. существует причинно-следственная связь между двумя событиями. Это также называется причиной и следствием».

Другими словами, действительно ли одна переменная влияет на другую?

Примеры причинно-следственной связи и корреляции

Есть такой развлекательный ресурс Spurious Correlations, который делится примерами, демонстрирующими тесную взаимосвязь между переменными, которые не вызваны одна другой. По крайней мере, этих взаимосвязей быть не должно.

Показательный пример: употребление маргарина влияет на количество разводов в американском штате Мэн?

<p>Диаграмма, показывающая сильную корреляцию между уровнем разводов в штате Мэн и потреблением маргарина. <span>Источник: tylervigen.com</span></p>

Диаграмма, показывающая сильную корреляцию между уровнем разводов в штате Мэн и потреблением маргарина. Источник: tylervigen.com

Продолжая примеры с едой, может ли сыр быть секретным топливом, которое питает инженеров-строителей в их исследованиях?

<p>Диаграмма, показывающая сильную корреляцию между потреблением сыра моцарелла и количеством присужденных докторских степеней в области гражданского строительства. <span>Источник: tylervigen.com</span></p>

Диаграмма, показывающая сильную корреляцию между потреблением сыра моцарелла и количеством присужденных докторских степеней в области гражданского строительства. Источник: tylervigen.com

Обе диаграммы показывают сильную корреляцию между зависимыми и независимыми переменными. Однако это, вероятно, классические случаи, когда «корреляция не подразумевает причинно-следственной связи». Если, конечно, маргарин действительно не является щекотливой темой для пар в штате Мэн или появились новаторские эффекты употребления большого количества сыра.

Почему важно знать разницу между корреляцией и причинно-следственной связью?

Приведенные выше примеры корреляции и причинно-следственной связи показывают, что правильное понимание разницы имеет решающее значение.

Авинаш Кошик, евангелист цифрового маркетинга в Google, в 2016 году писал о том, что непонимание разницы может быть очень проблематичным. Кошик обратил внимание на статью The Economist, в которой утверждалось, что употребление большего количества мороженого может повысить баллы учащихся по шкале чтения PISA.

«Для нормальных людей (не аналитиков) эти график и статья выглядят правдоподобно. В конце концов, это уважаемый сайт и уважаемая команда. О, и посмотрите, есть красная линия, что-то похожее на правдоподобное распределение и R-квадрат!»

Авинаш Кошик

Но Кошик хочет, чтобы мы больше думали об имеющихся данных и не принимали вещи за чистую монету.

Он указывает, что нет ничего, что могло бы обосновать причинность того и другого, несмотря на разумную корреляцию. Может показаться, что существует связь, связывающая IQ с потреблением мороженого. Тем не менее, данные не раскрывают ничего, кроме этой очевидной корреляции.

Смелые заявления

В нашей повседневной жизни мы сегодня имеем доступ к большему количеству данных, чем когда-либо прежде. Решения, мнения и даже бизнес-стратегии могут зависеть от нашей способности различать их.

Кошик использует приведенный выше пример, чтобы напомнить людям о необходимости более скептически относиться к утверждениям, которые делают смелые выводы на основе коррелирующих данных. Он призывает читателей смотреть глубже и избегать простых решений.

«Наша работа состоит в том, чтобы быть скептичными, копать и понимать, тыкать и подталкивать, и отвергать возмутительно неправильное, а если оно не является возмутительно неправильным, то выяснить, насколько оно может быть правильным, чтобы вы могли дать обоснованную рекомендацию»

Авинаш Кошик

Причинно-следственная связь и корреляция также являются темой, которую Майкл Молнар исследует в статье Forbes. Молнар предупреждает, что:

«Путаница корреляции с причинно-следственной связью не является скрытой проблемой, но она становится все более проблематичной по мере увеличения объема данных и повышения мощности компьютеров… она затрагивает суть того, что мы знаем — или думаем, что знаем — о том, как устроен мир».

Майкл Молнар

Может быть трудно установить причинно-следственную связь между двумя переменными. Часто необходимы рандомизированные контролируемые опыты и другие статистические тесты, чтобы проверить, действительно ли одна переменная влияет на другую. Более того, хотя корреляции могут быть полезными показателями, они имеют ограничения. Как мы увидели в приведенных выше примерах корреляции и причинно-следственной связи, это обычно связано с измерением линейной зависимости.

Правильная корреляция и причинно-следственная связь

В сегодняшнем мире, управляемом данными, важно более скептически относиться к конкретным выводам, прежде чем делать смелые заявления, предлагает Кошик. Как мы можем это сделать? Дальнейшее исследование и, по возможности, дополнительное тестирование.

Внешние факторы (называемые «вмешивающимися факторами» или «скрытыми переменными») иногда могут влиять на одну или две переменные в изучаемой нами корреляции. Например, некоторые исследования обнаружили связь между потреблением кофе и риском развития рака легких. Однако было обнаружено, что «курение» может быть потенциальной искажающей переменной в результатах, как показывает один метаанализ этих результатов. Как уже упоминалось, как и в случае с другими ключевыми выводами, дальнейшие исследования могут помочь прояснить контекст, лежащий в основе корреляций.

Корреляция или причинно-следственная связь: в чем разница?

Проверка на причинно-следственную связь является сложной задачей. Тем не менее, тут может помочь экспериментальный дизайн. Здесь исследователь может проверить гипотезу таким образом, что он может контролировать одну переменную (независимую переменную) и измерять ее влияние на другую переменную (зависимую переменную). Самое главное, это может помочь им контролировать возможные помехи, чтобы избежать потенциальной систематической ошибки в их результатах.

У нас в «Интериум» был случай, когда мы собрали статистику по отзывам на филиалы одной организации на Яндекс.Картах. Обнаружилась сильная корреляция между рейтингом по 5-балльной шкале и количеством отзывов: чем их больше, тем хуже рейтинг у филиала. Любопытно, но лучше перепроверить связь иными способами. После обсуждения ситуации с клиентом, подробного изучения текстов отзывов и принятия во внимание специфики отрасли (это была социальная сфера), стало понятно, что причинно-следственная связь всё же есть. Это не та сфера, где люди будут часто рассказывать о позитивном опыте, зато с большой вероятность пойдут в интернет жаловаться. Для некоторых это единственный доступный механизм воздействия.

Подытоживая можно сказать, что при работе с социальным сетями и данными из них, наткнувшись на любопытную корреляцию в поведении пользователей или распространении инфоповода, всегда стоит остановиться на минуточку и подумать, а есть ли тут связь? И стоит ли принимать решение о, например, активации коммуникации в этом ключе и привлечении именно этой ЦА, или все же взаимосвязь была иллюзией?

1313
Начать дискуссию