Причинно-следственная связь и корреляция: в чем разница и почему её важно понимать в работе над продуктом

Почему её легко упустить и как доказать наличие причинно-следственной связи.

Материал GoPractice.

В работе над продуктом часто можно услышать такую логику рассуждений от продакт-менеджера или продуктового аналитика: «Я проанализировал данные и увидел, что пользователи, которые делают Х, с большей вероятностью покупают премиум-версию или становятся успешными». На основе этого инсайта они решают инвестировать время и силы в то, чтобы большая доля пользователей делала X.

Проблема в том, что в этом случае корреляция выдается за причинно-следственную связь. Может быть, там и есть зависимость между переменными, а может быть, это частный случай корреляции, когда рост одной метрики сопровождается ростом другой.

В этом материале разберемся, почему легко упустить разницу между корреляцией и причинно-следственной связью, как доказать наличие причинно-следственной связи и почему это важно при работе над продуктом.

На первый взгляд, выражение «корреляция не означает причинно-следственную связь» не требует дополнительных разъяснений: звучит как прописная истина. Но снова и снова люди с разным уровнем опыта приравнивают эти понятия. Иногда умышленно, а иногда по невнимательности.

Корреляция и причинно-следственная связь

Корреляция — это взаимосвязь между двумя переменными, при которой изменение одной из них сопровождается изменением в другой. Здесь важно подчеркнуть слово«сопровождается», поскольку при корреляции эти изменения могут происходить без прямого влияния одной переменной на другую.

В ситуации же, когда такое прямое влияние доказано — можно говорить о причинно-следственной связи.

Пример корреляции может звучать так:

Рост потребления мороженого сопровождается ростом числа лесных пожаров.

Причинно-следственная связь и корреляция: в чем разница и почему её важно понимать в работе над продуктом

Другой пример:

Cнижение потребления маргарина сопровождается снижением количества разводов.

Причинно-следственная связь и корреляция: в чем разница и почему её важно понимать в работе над продуктом

Отличие корреляции от причинно-следственной связи

У корреляции может быть несколько причин. Например, на две переменные влияет некий третий фактор, как в случае с ростом продаж мороженого и лесными пожарами. Этот фактор — теплое время года и высокая интенсивность солнечного излучения.

В случае с корреляцией не всегда можно идентифицировать другие факторы, которые влияют на обе переменные, а иногда их может не быть вовсе. В таком случае уместно говорить о случайности. Одновременное снижение числа разводов и потребления маргарина — пример такой ложной корреляции (spurious correlation).

В чем отличие корреляции от причинно-следственной связи?

Причинно-следственная связь всегда подразумевает наличие корреляции. Корреляция не обязательно означает наличие причинно-следственной связи. Корреляция может быть случайной, но причинно-следственная связь по определению не может быть случайностью.

Если корреляция есть, то для доказательства причинно-следственной связи должны соблюдаться еще два условия:

  • Отсутствие сторонних факторов, которые влияют на обе переменные;
  • Прямая временная последовательность между изменением первого и второго показателя, между событием A и событием B.

Хотя разница между корреляцией и причинно-следственной связью кажется очевидной, на практике принять одно за другое очень просто.

Примеры корреляций, которые ошибочно принимают за причинно следственную связь

Рассмотрим типовые ситуации из жизни, когда наличие корреляции приводит к ложному выводу о наличии причинно-следственной связи в бытовых ситуациях.

В своей книге «Thinking, Fast and Slow» Daniel Kahneman (Даниэль Канеман) описывает случай на лекции для израильских летчиков. Один из инструкторов настаивал, что курсанты лучше справляются с задачей после того, как он жестко критикует их за ошибки. Канеман предложил провести эксперимент, в ходе которого эти курсанты должны были не глядя дважды бросить монетку в нарисованную на полу мишень. Опыт показал: те, у кого первый бросок был ближе к цели, во второй раз бросали не так точно. И наоборот.

Таким экспериментом Канеман продемонстрировал феномен регрессии к среднему. Когда летчик очень плохо или очень хорошо исполнил упражнение, то часто для него это было отклонением от среднего значения. Поэтому с высокой вероятностью его следующее исполнение будет ближе к среднему, то есть лучше или хуже предыдущего.

Получается, что не критика помогала курсантам показывать лучшие результаты после провального опыта, а регрессия к среднему. Инструктор ошибочно принял корреляцию между критикой и улучшением результатов курсантов после нее за причинно-следственную связь.

Некоторые широко известные убеждения тоже являются корреляцией, которая маскируется под причинно-следственную связь.

Например, идея о том, что занятия музыкой в дошкольном возрасте улучшают когнитивные способности, память и внимание ребенка. Хотя корреляция между этими факторами действительно может быть, говорить о прямой причинно-следственной связи нельзя, так как на результат может влиять масса факторов.

Может быть, занятия музыкой для ребенка требуют от семьи дополнительных финансовых ресурсов. То есть, если семья может направить деньги не только на базовые потребности, но и на дополнительное образование, с высокой вероятностью ребенок имеет доступ к лучшему питанию, лучшему основному образованию и другим благам, которые могут позитивно отражаться на интеллекте ребенка.

Еще один пример.

В одном из материалов Washington Post пришла к выводу, что рост затрат на полицию в США не привел к сокращению преступности. Автор через кажущееся отсутствие прямой корреляции пытается опровергнуть причинно-следственную связь между событиями: увеличение бюджета полиции не приводит к пропорциональному сокращению уровня преступности.

Причинно-следственная связь и корреляция: в чем разница и почему её важно понимать в работе над продуктом

Но говорить о том, что здесь обязательно должна быть причинно-следственная связь, нельзя. Например, именно рост преступности может быть драйвером расходов на полицию, а не наоборот. Без тщательного исследования мы не можем утверждать ни того, ни другого.

Корреляция в бизнесе

В 2013 году eBay тратил десятки миллионов долларов на поисковую рекламу по брендовым запросам “eBay”. В компании были уверены, что рост продаж обусловлен именно покупным трафиком. Но исследование показало, что реклама оказалась направлена как раз на ту аудиторию, которая в любом случае совершила бы покупку на eBay.

В данном случае именно намерение пользователей совершить покупку приводило и к показу рекламы, и к продажам на площадке. В eBay же думали, что именно реклама выступала причиной, а продажи — ее следствием.

Корреляцию часто ошибочно принимают за причинно-следственную связь при анализе успеха чужих продуктов со стороны. «Продукт А выстрелил и нашел product/market fit, благодаря фиче X. Мы можем повторить успех, добавив ту же фичу в нашем продукте и на нашем локальном рынке».

Допустим, что продукт А действительно стал успешным после того, как внедрил определенную фичу. Но нельзя назвать причиной сам факт добавления фичи. Причина зачастую более комплексна и опирается на массу факторов. Но главное, что для определенного сегмента пользователей продукт решает некоторую задачу эффективнее всех доступных альтернатив.

Например, WeChat Pay набрал популярность как платежный инструмент в Китае не потому, что они соединили мессенджер и платежный инструмент. Дело в том, что этот инструмент стал намного более эффективной альтернативой наличным деньгам, поэтому его добавочная ценность оказалась столь высока, а продукт — столь успешным.

На этом фоне становится понятно, почему Facebook Messenger так тяжело давались попытки запустить свой платежный сервис. Просто прикрутить функциональность к мессенджеру недостаточно, потому что на рынке США гораздо сильнее развиты платежные инструменты, а значит, добавочная ценность решения от Facebook для клиента менее ощутима или не ощутима вовсе.

Корреляция в работе над продуктом

Работа над продуктом подразумевает постоянные вопросы о причинах тех или иных изменений в метриках. И зачастую велик соблазн объяснить их через что-то, что мы сделали осознанно и недавно. Однако важно помнить, что продукт и пользователи не существуют в вакууме.

Пример с притоком пользователей в продукт

Вы фиксируете приток пользователей за последнюю неделю, а перед этим вы добавили в продукт новую большую фичу. Кажется, что продуктовое изменение привело к росту.

Однако позже выясняется, что приток пользователей в ваш продукт стал следствием того, что ваш прямой конкурент резко ограничил возможности базового тарифа. Ваш отдел маркетинга заметил это и стал активно использовать этот аргумент в разных каналах коммуникации. Отсюда — приток новых пользователей.

Между добавлением новой фичи и приростом пользовательской базы действительно была корреляция. Но, как мы выяснили, причина этого роста скрывалась в другом.

Пример с монетизацией мобильной игры

Работая над мобильной игрой, вы заметили, что пользователи, которые подключают соцсети, делают больше покупок. На этом этапе может возникнуть соблазн предположить наличие между событиями причинно-следственную связь и решить, что увеличение конверсии игроков в подключение соцсетей пропорционально увеличит выручку с таких пользователей. Если это правда так, то у вас есть множество гипотез, как повлиять на этот параметр.

Однако на деле в такой ситуации вполне может быть еще один или несколько факторов, которые одинаково влияют и на первое, и на второе явление. Скрытым от глаз фактором может быть то, что пользователи, которые и активно подключают соцсети, и чаще делают покупки, просто изначально сильнее мотивированы и больше заинтересованы в игре. То есть это не подключение соцсетей влияет на их поведение, а изначальная предрасположенность к игре.

Если это так, то на практике активное навязывание пользователям возможности подключиться к соцсети в действительности не даст никакого результата. С другой стороны, сразу решить, что такое навязывание не даст никаких изменений, тоже нельзя. Чтобы выяснить это, нужно провести эксперимент.

Как эксперименты помогают доказать причинно-следственную связь

Суеверия, псевдонаучные дисциплины и архаичные методы лечения появились во многом благодаря путанице между корреляцией и причинно-следственной связью. Так появились ритуалы, которые призывают дождь, и жертвоприношения, которые гарантируют удачную охоту и богатые урожаи.

Примерно такой подход прослеживается в древней и средневековой медицине. Например, эффективным способом поправить здоровье больного считалось кровопускание. Если пациент после этой процедуры выживает, то успех приписывается именно ей. Если нет, то значит, болезнь была слишком сильной.

То есть в этом случае корреляция между процедурой и выздоровлением не только ложная, но и избирательная.

Мы не случайно упомянули архаичные методы лечения, потому что именно развитие медицины дало дорогу появлению эффективных методов доказательства причинно-следственной связи.

Одним из важнейших этапов на пути развития доказательной медицины стало проведение в середине XX века первого рандомизированного контролируемого испытания (randomized controlled trial). Его суть заключается в том, чтобы взять две группы людей — тестовую и контрольную, — и одной вручить лекарство, а другой плацебо. Отсутствие различий в других переменных позволяет сделать вывод о влиянии лишь одного конкретного фактора.

В интернете практика подобных испытаний получит название A/B-тестов.

A/B-тестирование для проверки наличия причинно-следственной связи

Вы наблюдаете корреляцию между событиями X и Y. Но для принятия решения вам нужно понять, есть ли между ними причинно-следственная связь.

Для ответа на этот вопрос надо провести эксперимент.

Например, когда одна группа пользователей получает фичу, а другая нет. Все остальные условия для них идентичны. По итогам теста собираются и анализируются данные. На их основе вы можете понять, оказала ли фича влияние на интересующую нас метрику.

Хотя порядок действий и звучит просто, на деле проведение A/B-тестов требует внимания ко множеству деталей и дисциплины. В частности, вам нужно быть очень аккуратными, чтобы не спутать случайное изменение в значение целевой метрики с влиянием тестируемого изменения. Для этого используется понятие статистической значимости — подробнее об этом читайте здесь.

Понимание корреляции и причинно-следственной связи уберегает от ошибок и помогает глубже видеть продукт

В работе над продуктом легко принять корреляцию за причинно-следственную связь. Допускают такую ошибку в разных случаях: либо человек не знает про эту разницу, либо — что чаще — знает в теории, но не всегда может заметить на практике, либо умышленно хочет выдать одно за другое, чтобы добиться желаемого.

Путанице между корреляцией и причинно-следственной связью способствуют различные когнитивные искажения, например confirmation bias или иллюзия контроля. Confirmation bias заставляет нас отметать те факторы, которые не укладываются в желаемую картину происходящего. Иллюзия контроля создает впечатление, что мы знаем о продукте все и понимаем, что и отчего напрямую зависит.

Понимать разницу между корреляцией и причинно-следственной связью важно, чтобы не прийти к ошибочным решениям или не потратить время и ресурсы без какого-либо результата.

Проверка гипотез через эксперименты, дотошное выяснение причин тех или иных наблюдаемых изменений не только помогает ответить на один конкретный вопрос (например, почему падает конверсия в покупку), но и позволяет глубже понять продукт. Такое понимание помогает находить новые инсайты и увеличивать ценность продукта для пользователей.

Чтобы глубже разобраться в том, как создаются, развиваются и масштабируются продукты, пройдите обучение в симуляторах GoPractice.

7676
14 комментариев

Все забыли замечательное "Влияние количества пиратов на глобальное потепление" - гуглите)

4

влияние лунного света на покачивание лесной шишки.

1

Все забыли замечательное "Влияние шипящих суффиксов в поэзии Вознесенского на производительность труда такелажников Заполярья"

В эту же степь классическое "Влияние числа фильмов с участием Николаса Кейджа на число людей, утонувших в бассейне".

Для тех, кому лень читать весь этот менеджерский булшит с графиками:

Корреляция — статистическая взаимосвязь двух или более случайных величин, при этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.

Причинно-следственная связь — связь между явлениями, при которой одно явление, называемое причиной, при наличии определенных условий порождает другое явление, называемое следствием.

2

Я как раз дочитываю книгу
"Почему. Руководство по поиску причин.." Клейнсберг (может в статье и есть ссылка на нее и не увидел)
Там тоже основная мысль про связь корреляции и причино- следственной связи, довольно интересно. Советую присмотреться к этой книге всем тем, кому понравилась публикация
Олег, спасибо за статью

1

Я проанализировал данные и увидел, что пользователи, которые делают Х, с большей вероятностью покупают премиум-версиювы его спросите, как он посчитал вероятность?