{"id":14291,"url":"\/distributions\/14291\/click?bit=1&hash=257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","hash":"257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","title":"\u0420\u0435\u043a\u043b\u0430\u043c\u0430 \u043d\u0430 Ozon \u0434\u043b\u044f \u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0438\u0447\u0435\u0433\u043e \u0442\u0430\u043c \u043d\u0435 \u043f\u0440\u043e\u0434\u0430\u0451\u0442","buttonText":"","imageUuid":""}

Следите за осями: как распознать, что диаграмма лжёт Статьи редакции

Почему одни и те же данные на графиках могут рассказывать совершенно разные истории и вводить в заблуждение — в отрывке из книги «Полный бред! Скептицизм в мире больших данных» от издательства МИФ.

Визуализация данных может вводить в заблуждение как намеренно, так и случайно. К счастью, большинство этих трюков легко распознать, если вы знаете, куда смотреть.

На многих диаграммах, включая столбчатые и точечные, для размещения данных используются горизонтальная и вертикальная оси, задающие границы числовых значений. Всегда смотрите на оси, когда видите диаграмму, на которой они есть.

Дизайнеры используют ряд фокусов для манипуляции осями на графике. В 2016 году колумнист, профессор Эндрю Поттер вызвал фурор своей статьей для канадского новостного журнала Maclean’s. В ней автор заявил, что многие проблемы канадского города Квебек можно свести к тому факту, что «по сравнению с остальной страной Квебек — почти патологически отчуждённое и недоверчивое сообщество, ему не хватает многих базовых форм социального капитала, которые остальные канадцы считают сами собой разумеющимися». Пытаясь подтвердить заявление Поттера, в журнале затем опубликовали следующую диаграмму:

На первый взгляд кажется, что диаграмма основательно подкрепляет заявление Поттера. Столбцы доверия в Квебеке куда ниже, чем в остальной Канаде. Но подождите и взгляните на вертикальную ось (y). Столбцы не доходят до нуля — лишь до 35, 45 и 50 соответственно. Обрезав столбцы Квебека снизу, дизайнер визуально увеличил разницу между этой провинцией и остальной страной.

Если бы линии доходили до нуля, диаграмма производила бы другое впечатление:

На новой диаграмме мы видим, что уровень доверия в Квебеке и правда несколько ниже, но теперь имеем более точное впечатление о различиях. Именно такую визуализацию и нужно было опубликовать. После того как читатели заметили манипуляции с осью в исходной диаграмме и пожаловались, Maclean’s опубликовал её в исправленном виде.

Столбчатая диаграмма и без очевидной оси может вводить в заблуждение. Вот пример того, что опубликовали в Instagram* во время избирательной кампании Хиллари Клинтон:

Здесь столбцы идут слева направо, а не снизу вверх. Это уместно, потому что каждая из полос демонстрирует категорию, для которой нет какого-то естественного порядка, кроме числового выражения, например год, возраст, уровень доходов. Что не обоснованно — так это непропорциональность полос долям, которые они представляют. Длина первых четырех относительно корректна и очень близка к заявленной полной длине отрезка слева направо. Последние две существенно длиннее, чем должны быть, если учитывать числа, которые они иллюстрируют.

Полоса для белых женщин помечена 75%, хотя растянулась на 78% пути в сторону к правому краю. Полоса азиатских женщин вводит в заблуждение ещё сильнее. Она подписана 84%, но растянулась на все 90% на пути до правого края. В итоге воспринимаемые различия между заработками женщин иной этнической принадлежности и заработками белых женщин и азиаток преувеличиваются. Мы можем прочитать числа, но впечатления получаем благодаря восприятию визуальной длины полос.

В то время как в гистограмме (столбчатой диаграмме) столбики обязательно должны начинаться от нуля, на линейном графике включать ноль в ось зависимой переменной не обязательно. Линейный график ниже иллюстрирует, насколько с 1970-х годов в штате Калифорния выросла доля семей, где работают оба родителя. Как и в изначальном графике доверия в Квебеке, здесь используется вертикальная ось, которая не опускается до нуля.

В чем разница? Почему вертикальная ось в столбчатой диаграмме должна всегда начинаться от нуля, а в линейном графике это не обязательно? Два визуальных формата рассказывают разные истории. По своему устройству столбчатая диаграмма иллюстрирует абсолютные значения переменных в каждой категории, в то время как линейный график фокусирует внимание на изменении одной переменной по мере изменения другой.

На самом деле линейные графики иногда могут вводить в заблуждение как раз потому, что их вертикальная ось доходит до нуля. Один печально известный пример, озаглавленный «Единственный график глобального потепления, который вам отныне нужен», был создан Стивеном Хейвардом для блога Powerline и широко разошелся после того, как National Review опубликовал его в Twitter в конце 2015 года. Объясняя свой график, Хейвард писал: «Что, теперь не так страшно? На самом деле вы едва ли замечаете потепление».

Это глупо. Абсолютная температура не имеет отношения к ситуации. Нет никакого смысла увеличивать масштаб до такой степени, что любые изменения стираются. Если мы хотим делать выводы о том, насколько меняется климат, нам нужен масштаб примерно как на следующем графике.

Лукавство графика, подготовленного для блога Powerline, в том, что Хейвард выбрал графическое представление, не соответствующее истории, которую он рассказывает. Хейвард утверждает, что пишет об изменении (или отсутствии такового) температуры на Земле. Однако вместо того, чтобы выбрать график, на котором были бы видны изменения, он целенаправленно использовал график, который их скрывает и отражает абсолютные величины.

Нам нужно быть ещё осторожнее, когда на графике две вертикальные оси с разными масштабами. Выборочно изменяя масштаб осей, связанных друг с другом, дизайнеры могут заставить данные рассказывать почти любую историю. Например, исследование 2015 года в одном второсортном журнале попыталось воскресить давно разоблачённую конспирологическую теорию, связывающую расстройства аутистического спектра (РАС) с комбинированной вакциной. В качестве доказательства был приведён график, который выглядел так, как показано ниже.

Даже если мы готовы отбросить серьёзные проблемы с выборкой и анализом данных, какие выводы нам придётся сделать из связи, на которую указывает этот график? С первого взгляда линия РАС довольно тесно следует линии вакцин. Но взгляните на оси. Частота расстройств аутистического спектра размечена на шкале от 0 до 0,6%. Охват вакцинацией намечен на шкале от 86 до 95%. Таким образом, в этот период мы наблюдаем большой рост частоты расстройств аутистического спектра, практически в 10 раз с 2000 по 2007 год, но очень небольшое изменение в охвате вакцинацией. Это становится ясно, если мы исправим масштаб. Нам не нужно показывать оба тренда в одном масштабе, но следует убедиться, что обе оси включают ноль.

Если рассмотреть данные таким образом, становится ясно, что относительно незначительные изменения охвата вакцинацией вряд ли вызывают сравнительно серьёзные изменения в уровне РАС.

Вот ещё один пример из медицинской статьи в малоизвестном научном журнале. Этой диаграммой авторы пытаются проиллюстрировать временную корреляцию между раком щитовидной железы и использованием пестицида глифосата — «Раундапа».

Конечно, отравление «Раундапом» может повлечь серьёзные последствия для здоровья. Но какими бы они ни были, именно эта иллюстрация неубедительна. В первую очередь корреляция не означает причинной связи. Например, можно обнаружить сходную корреляцию между использованием мобильных телефонов и раком щитовидной железы или даже между использованием мобильных телефонов и применением «Раундапа»! Ниже мы добавили на диаграмму информацию про мобильники.

Если поверить логике изначального заявления, то, наверное, надо переживать из-за того, что мобильные телефоны вызывают рак щитовидной железы, а может, и распространение «Раундапа» вызывает рост числа мобильных телефонов.

Давайте теперь посмотрим на оси диаграммы. Вертикальная ось слева, связанная со столбцами, не доходит до нуля. Мы уже объясняли, почему это может привести к неверному восприятию данных. Но всё ещё хуже. Как масштаб, так и отсекаемый отрезок вертикальной оси справа были изменены таким образом, чтобы кривая глифосата следовала за пиками столбцов частоты рака. Ещё замечательнее следующее: чтобы заставить кривую так себя вести, оси пришлось дотянуть до отрицательных значений — использования –10 000 тонн глифосата. Это просто абсурд. Мы отмечали, что вертикальной оси не обязательно доходить до нуля в линейном графике, но, если она опускается до отрицательного значения параметра, который бывает только положительным, считайте это сигналом тревоги.

Чаще всего мы встречаем мошенничество с вертикальной осью, но и горизонтальную можно использовать, чтобы вводить в заблуждение. Пожалуй, самый простой способ — выбрать диапазон данных, который скрывает часть истории. В июле 2018 года стоимость акций Facebook* рухнула на небывалую для американского фондового рынка глубину после того, как компания представила отчетность за второй квартал 2018 года. Эти результаты не оправдали ожиданий Уолл-стрит, что спровоцировало обвал акций. Заголовок в Business Insider гласил: «Обвал акций Facebook* снизил рыночную стоимость компании на $120 млрд: самое большое падение на биржевом рынке США в истории». Ниже был размещён график цен на акции Facebook* за период в четыре дня.

С одной стороны, спад и правда был значительным, но ведь и изначальная стоимость акций Facebook* была очень высока. В целом дела у компании идут очень неплохо, если мы поместим падение в июле 2018 года в контекст графика, который охватывает пять лет вместо четырех дней.

Если описать ситуацию таким образом, то мы увидим совсем другую историю о катастрофе Facebook* на бирже. Мы увидим быстрое восстановление после предыдущих падений. Нам не столько интересно, вводил ли в заблуждение график в Business Insider, сколько важно показать, как диапазон влияет на восприятие информации. Помните об этом, когда смотрите на линейные графики и похожие виды визуализации. Убедитесь, что выбранная временная шкала подходит для точки зрения, которую график пытается проиллюстрировать.

Давайте рассмотрим другой способ морочить голову с помощью горизонтальной оси. График ниже предполагает, что выбросы СО2 достигли плато. В сопроводительном тексте говорится: «За последние несколько лет выбросы углекислого газа по всему миру стабилизировались по сравнению с предыдущими годами».

Но посмотрите, что происходит с горизонтальной осью. Каждая точка отвечает интервалу в 30 лет, пока мы не достигаем 1991 года. Следующий шаг — уже 10 лет. Затем 9 лет. Далее каждый интервал равняется всего одному году. Если перерисовать этот график так, чтобы ось X имела постоянный масштаб на всем протяжении, мы увидим иную картину.

Возможно, выбросы углекислого газа теперь растут и с меньшей скоростью, но совсем не похоже, что они приблизились к плато.

В целом важно присматриваться к неравномерности и изменению масштаба оси X. Нечто похожее происходит с гистограммами (столбчатыми диаграммами), когда каждый столбик отображает суммарные данные в каком-то интервале. Посмотрите на следующую гистограмму из статьи в The Wall Street Journal о плане налогообложения президента Обамы.

Диаграмма пытается показать, кто несёт основное бремя налогообложения в США. Каждый столбец представляет налогоплательщиков определённого уровня доходов. Для этого данные о них были суммированы. Уровни доходов показаны на горизонтальной оси, а по вертикали отмечен весь доход каждой группы. Большая часть денежных поступлений, облагаемых налогом, судя по этим цифрам, создаётся средним классом, то есть людьми с доходами от $50 000 до $200 000 в год, чей столбец поднялся выше всех. (Большая доля доходов приходится также на группу с доходом от $200 000 до $500 000, но даже по стандартам The Wall Street Journal её сложно назвать средним классом.)

Автор заявляет, что большая часть налогового бремени по плану Обамы неизбежно ляжет на плечи среднего класса, а не богатых.

«Богатые недостаточно богаты, чтобы финансировать претенциозные государственные амбиции мистера Обамы даже до того, как вступит в силу его план реформы здравоохранения. На кого же тогда возложить налоговое бремя? Что ж, в 2008 году около $5,65 трлн всего облагаемого налогами дохода всех индивидуальных налогоплательщиков создавали люди со средними заработками. Распределение проиллюстрировано диаграммой. Большой столбец в центре — это те, за кем отправятся демократы, ровно по той же причине, по которой Вилли Саттон грабил банки»*.

*Это ссылка на исторический анекдот о легендарном грабителе Вилли Саттоне, который якобы на вопрос «Почему вы ограбили все эти банки?» ответил: «Потому что там лежат деньги».

Но взгляните на эту диаграмму внимательнее. Интервалы доходов, которые соответствуют каждому столбцу гистограммы, очень различаются по размерам. В начале каждый следующий интервал больше соседнего на $5000 или $10 000. Неудивительно, что столбцы низкие. Это узкие интервалы! Затем, как только мы добираемся до среднего класса — до тех, на кого, по мнению авторов, ложится основное бремя налогов, — интервалы радикально увеличиваются . У нас появляются два интервала с дополнительными $25 000, а затем интервал, который на $100 000 больше. И далее интервалы только растут. Подобный выбор интервалов распределения создает иллюзию, что основной облагаемый налогом доход находится в центре распределения.

Политолог Кен Шульц решил показать, как дизайнер может рассказать совершенно разные истории, если ему позволить выбирать ширину интервала. Он взял те же данные о налогах, но иначе составил интервалы, чтобы рассказать три разные истории.

Изменяя на этих гистограммах величину интервалов, в которые попадают значения доходов, Шульц смог создать истории о том, что нам нужно облагать налогами бедных, средний класс (который теперь определён как люди, получающие менее 100 000 облагаемого налогами дохода) и очень богатых.

The Wall Street Journal, возможно, и не пытался ввести читателей в заблуждение. Оказывается, именно в такие интервалы собирает свои данные о доходах налогоплательщиков налоговое управление. Но, независимо от мотивов автора, вам нужно быть внимательными, потому что то, как организована информация, может влиять на смысл истории.

Давайте взглянем на другой пример, как может обманывать агрегация данных. Данные на следующей диаграмме должны проиллюстрировать степень, в которой генетика предопределяет достижения в учебе. Горизонтальная ось — влияние генетики, а вертикальная — уровень академических достижений в старших классах. Тренд выглядит крайне сильным. С первого взгляда можно подумать, что гены играют огромную роль в достижениях в учебе.

Однако показанные таким образом данные лгут. Проблема именно в агрегации. Все показатели внутри каждого из десяти интервалов вдоль оси собраны вместе, и на схеме отображён получившийся средний показатель. Взяв таким образом среднее, авторы скрыли большое разнообразие индивидуальных оценок. Исходные данные, показанные на следующей диаграмме, рисуют иную историю. Хотя это именно та информация, которую мы использовали, чтобы составить предыдущую диаграмму. Но она больше похожа на последствия расстрела из автомата, чем на сильный линейный тренд!

Оказывается, что фактор генетики отвечает только за 9% вариаций в достижениях в учебе. Если кто-то собирается агрегировать данные, то диаграмма размаха («ящик с усами») позволяет продемонстрировать диапазон внутри каждой группы гораздо лучше.

К счастью, авторы этой статьи предложили оба варианта, так что мы можем увидеть, насколько обманчивой может быть диаграмма со сводными данными. Но не все раскрывают свои секреты. Иногда в научной работе или новости о результатах исследования показывают только сводные данные. Будьте внимательны, иначе вас заставят поверить, что тренд куда сильнее, чем на самом деле.

*Meta, материнская компания Instagram и Facebook, признана экстремистской организацией и запрещена в России.

0
3 комментария
Семен Смирнов

Уже целую книгу написали про диаграммы без начала

Ответить
Развернуть ветку
Павел Полько

Следующий этап - защита диссертаций на эту тему.

Ответить
Развернуть ветку
Kirill Zaytcev

получается книга с картинками, да?

Ответить
Развернуть ветку
0 комментариев
Раскрывать всегда