Насколько можно доверять статистике?

Вы доверяете статистике? А статистическому моделированию? А если эти статистические модели сделаны ведущими мировыми аналитиками на основе сухих и подтвержденных данных?

Если ответ да, значит, вы не знаете, как работает статистика.

Недавно группа исследователей решила определить, насколько можно доверять результатам исследований, выводы которых основаны на различных статистических тестах, и для этого они пригласили 73 аналитические команды из 161 аналитика, 83% которых даже занимаются преподаванием анализа данных.

Перед ними поставили до тривиального простую задачу: подтвердить или опровергнуть довольно известную гипотезу по влиянию иммиграции на общественную поддержку социальных программ, используя один и тот же набор данных.

Итак, у нас есть свыше полутора сотен специалистов, связанных с анализом данных, и они все получили идентичный набор данных, чтобы ответить на один и тот же вопрос.

Так, как вы думаете, на сколько выводов разделились конечные результаты? Может, на 2, 3? Или, может, 10?

... 73 аналитические команды использовали 1261 модель и пришли к 89 совершенно разным результатам с практически равномерным распределением, от значительно отрицательного влияния до значительно положительного.[16 команд использовали 2 показателя отдельно, из-за чего получили 2 результата вместо 1, отсюда 73+16.]

Главные исследователи не просто не обнаружили ни одного одинакового вывода, более того, они даже не обнаружили ни одной одинаковой модели среди всех команд, при том, что специально за этим следили, поскольку изначально ориентировались на результаты других подобных экспериментов, где обнаружилась эта же проблема – чрезмерная вариативность.

Они думали, что слежка за каждым этапом действий и каждым вычислением сможет помочь объяснить, откуда берется столь большая вариативность результатов, но тщетно.

Объяснимыми оказались лишь 4,8% от общего разброса, а 95,2% объяснениям не поддались вовсе.

Даже после рассмотрения результатов между командами, эта цифра упала лишь до 80%.

То есть как минимум 80% разницы между результатами – это совершенно необъяснимые факторы, к которым можно отнести личные взгляды, предвзятость в данном вопросе и другие.

[А кому интересны общие результаты, в 13,5%[12 из 89] случаев аналитики заключили, что гипотеза не поддается проверке, в 60,7%[54], что гипотезу стоит отвергнуть, а в 28,5%[23], что гипотеза подтверждена, но одинаковых выводов нет нигде.]

Вообще советую прочесть работу, она может расширить ваши горизонты. https://www.pnas.org/doi/10.1073/pnas.2203150119

Так же стоит держать в уме, что это далеко не первая подобная работа – это реплика более ранних работ, но с более углубленным анализом.

Для перспективы, ранее, в 2018 году, было проведено исследование среди 29 аналитических команд из 61 аналитика, только с вопросом: «чаще ли темнокожие футболисты получают красные карточки?»

В конечном итоге, 29 команд с одинаковым набором данных использовали 29 уникальных моделей, результат которых также варьировался от полного отсутствия до статистически-значимой взаимосвязи. https://journals.sagepub.com/doi/full/10.1177/2515245917747646

Затем, в 2020 году, были привлечены 70 аналитических команд. https://www.nature.com/articles/s41586-020-2314-9

В прошлом году вышло исследование уже на 164 команды. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3961574

Результаты те же.

Так, несмотря на использование, казалось бы, сухих и конкретных цифр, конечный результат все равно будет страдать от самой главной случайной неизвестной величины – самого аналитика, который может добиться любого результата в зависимости от подхода к анализу.

И это касается не только личных предубеждений, но и таких неприметных вещей, как место получения образования, принятые к использованию методы среди коллег, личные взгляды на анализ и, в конце концов, специалистом какой области анализа он является.

Так как если вы дадите один и тот же набор данных разным специалистам из экономики, биостатистики, статистики или прикладной математики, все они вернут вам совершенно разные отчеты о том, что они сделали, почему они это сделали и что все это значит.

Вот пара банальностей для примера:

В экономике обычно используют линейные смешанные модели, в биостатистике более распространены обобщенные оценочные уравнения.

В полногеномных ассоциативных исследованиях наиболее распространена групповая вероятность ошибки, тогда как в исследованиях экспрессии генов используется коэффициент ложного обнаружения.

Если брать ведущие мировые университеты, то в каком-нибудь университете Дьюка на факультете статистики изучают в основном байесовский анализ, в каком-нибудь Беркли – частотный.

В психологии – параметрическая статистика, в геномике – эмпирический байесовский анализ, в климатических моделях – рекомендуется байесовский анализ, но в жизни и кофейный, думаю, очень популярен.

Нейросети, машинное обучение часто используют для прогнозирования, но не для вывода.

Дайте всем этим специалистам одни и те же данные и результат будет ничем не лучше того, как если бы вы ткнули пальцем в небо. И это только между общими направлениями статистики.

Внутри направлений ситуация ничуть не лучше, различия между оценками колоссальны, с одинаковыми входными данными они дают даже противоположные результаты.

В конце концов, я даже писала донутный пост, где разбирала исследование самих климатологов, в котором они призвали банки не использовать их модели для инвестиционных программ.

Для демонстрации они запустили 37 климатических моделей по 3 сценариям, получив в результате абсолютный туман неизвестности, совершенное облако, от отрицательных до таких же положительных прогнозов для всех метрик: для температуры, жарких дней, ветра.

Прогнозируемая температура скакала от -6C до +6C, осадки могли вырасти, могли упасть на ту же величину – все модели по всем метрикам создали идеальное облако неизвестности.[VK][Boosty]

Все это явно показывает, что любые данные можно подогнать под любой результат, если просто использовать нужную модель или нужного аналитика, чем, безусловно, все очень охотно пользуются.

МГЭИК перед публикацией последнего климатического отчета AR6 имел 53 доступные рецензируемые статистические статьи, посвященные «нормализованным потерям от стихийных бедствий», в 52 из которых исследователи не обнаружили увеличения ущерба, который можно было бы отнести к изменению климата.

Но организация вычеркнула все 52 работы, выделив единственную работу, в которой говорилось об увеличении потерь.
https://clintel.org/2023/05/Press-release-Clintel-Views-of-the-IPCC.pdf

Всего лишь один нужный аналитик с нужной моделью, и вуаля.

– – – – – – – – – – – – – – – – – – – –
По возможности распространять.
Подписывайтесь на меня в [VK] и [Телеграме].
#наука #аналитика #исследования #разбор #статистика

Начать дискуссию