Big data: этика и дизайн

В октябре 2020 года я принял участие в конференции DC Design Week 2020 и вдохновился выступлением журналистов Washington Post Armand Emamdjomeh и Andrew Ba Tran. В этой статье я покажу примеры работ с большим объемом данных и инфографикой с точки зрения дизайнера. А также расскажу о правилах, которые обеспечивают этичное и корректное отображение информации, позволяют полностью раскрыть историю и минимизировать возможности для неправильной интерпретации или манипуляции фактами и цифрами.

Я также подготовил версию этого материала на английском.

Big data: этика и дизайн

В 2000-х годах на американском тв выходило шоу «Whose Line is it Anyway». Его участники разыгрывали комедийные сценки, а затем получали от судей фальшивые баллы. У передачи был забавный слоган, — «Баллы не имеют значения там, где все искусственное и ненастоящее» (Where everything’s made up and the points don’t matter). Эта фраза натолкнула меня на мысль о том, что в окружающем нас мире нет каких-либо истинных или основополагающих данных. Они могут быть точными только в определенном контексте и в конкретное время.

Если копнуть глубже, то в конечном итоге, все цифры, которые управляют крупными и не очень процессами построены на шатком фундаменте.

Например, коронавирус. Мы не имеем понятия о реальном количестве зараженных и умерших. Да, у нас есть некоторые представления, но нужно принимать во внимание значительное количество факторов: легкие бессимптомные случаи; люди, которые переболели и никогда не проходили тестирование; политика; недоучет по причине перегрузки больниц, усталости персонала и многое другое. Человеческое поведение непоследовательно и трудно поддается измерению. Статистика по коронавирусу — это как раз попытки оценить его в больших масштабах. И такое везде.

Экономика

Макроэкономические показатели управляют политикой, настроениями больших корпораций и их инвестициями. Еще, например, ВВП не учитывает домашний труд и теневой сектор. Могут ли такие показатели быть абсолютно точными?

В 2010 году экономисты Кармен Рейнхарт (Carmen Reinhart) и Кеннет Рогофф (Kenneth Rogoff) опубликовали статью «Рост на фоне долга» (Growth in a Time of Debt). В ней утверждалось, что государственный долг, который составляет более 90% ВВП, замедляет рост экономики. На этот вывод в своих будущих политических программах о необходимости жесткой экономии опирались республиканская партия США, комиссар ЕС, международный валютный фонд и казначейство Великобритании. Спустя 3 года выяснилось, что в расчетной Excel-таблице авторов статьи содержалась ошибка. Их научная работа подверглась критике со стороны экспертного сообщества, а выводы пересмотрены. Это пример публичного инцидента, когда принятые на основе такой статьи программы могли стать причиной увеличения бедности и потери рабочих мест. Только представьте, сколько еще существует экономических статей, в которых кроются неточности и ошибки, повлиявшие на принятие важных политических и экономических решений?

Бизнес

В конце октября 2020 года Spotify опубликовал отчет, согласно которому сервис достиг отметки в 300М активных пользователей. Но каково определение активного пользователя?

  • Это тот, кто зарегистрировался на Spotify?
  • Это тот, кто послушал хотя бы одну песню?
  • Это тот, кто заходил в приложение сегодня? в течение последней недели?
  • Это тот, кто проводит в приложении более 30 минут в день?

Эта проблема актуальна во всех отраслях, особенно в digital. Теоретически, если вы платите за что-то, то вы — клиент. Но что, если вы находитесь на бесплатной пробной версии? Или если срок вашей кредитной карты истек, и Spotify пытается заставить вас обновить платежную информацию? А что, если статистику мы собрали сегодня, а уже завтра ваша подписка закончится?

Есть и другие показатели, которые трудно определить и унифицировать. Например, продуктивность работы. Или даже доход. Во-первых, корпоративная финансовая отчетность зависит от оценок и суждений, которые могут быть неточными, даже если работа выполнена добросовестно. Во-вторых, стандартные показатели могут оказаться неприменимыми или даже устаревшими. Например, в инновационных стартапах. Это приводит к появлению неофициальных альтернатив. Ну и наконец, давление на менеджеров провоцирует намеренное искажение отчетности в угоду руководству и рынку.

Книги и научные статьи

Вы когда-нибудь задавались вопросом о точности данных, публикуемых известными авторами? Только за последние несколько лет ошибки в книгах нескольких из них вызвали дебаты об обязанности издателей брать на себя бОльшую ответственность за точность информации в публикуемых книгах, несмотря на то, что это очень дорогой и трудоемкий процесс.

Например, в 2019 году ученый и писатель Пол Долан (Paul Dolan) написал книгу «Happy Ever After». Позже она получила много положительных отзывов, в том числе от журнала The Times. В книге приводятся данные исследований о связи брака и счастья.

Женатые люди счастливее, но только когда их супруг находится в комнате, когда их спрашивают, насколько они счастливы. Когда супруга нет, ответ: чертовски плохо.

Пол Долан (Paul Dolan), Ученый и писатель

Позднее экономист и исследователь Грей Кимгру (Gray Kimbrough) обнаружил, что Долан неверно интерпретировал результаты опроса, в котором категория «отсутствующий супруг» означала то, что партнер живет отдельно, а не его отсутствие в комнате.

Аналогичная история с научными журналами. Их публикации подвергаются постоянной критике вплоть до таких изданий, как Nature и Science.

Можно вспомнить случаи, когда ученые намеренно отправляли в редакции журналов фейковые статьи с целью придать огласке проблему их рецензирования и отбора в угоду трендам и политике. В 2018 году трое ученых из США опубликовали в рецензируемых журналах выдуманные научные статьи, которые носили откровенно абсурдный характер, не подкреплялись данными из серьезных научных источников, а список литературы состоял из несуществующих исследований. К публикации даже была принята статья о феминизме под названием «Наша борьба — это моя борьба», которая оказалась немного переписанной главой из книги Адольфа Гитлера «Майн Кампф». Подобные пранки часто срабатывают и в точных науках, начиная от публикации псевдонаучной статьи «Корчеватель: алгоритм типичной унификации точек доступа и избыточности» (ее подготовили студенты MIT, затем Михаил Гельфанд перевел статью на русский язык и опубликовал в одном из журналов РАН) и заканчивая массовой чисткой авторитетного Springer от подставных публикаций, написанных компьютерными программами.

Данные, на которые вы опираетесь могут быть твердыми на поверхности, но под ними будет беспорядок, состоящий из неточных значений, ошибок в исследовании, проблем выборки, плагиата и остальных вещей, окружающих человеческую жизнь. Не существует настоящей истины, каждое исследование — это ее относительная версия, очень похожая на пещеру Платона.

Следует помнить о том, что к информации, которую вы берете в работу, нужно относиться критически и следовать нескольким простым советам:

  • Используйте только достоверные и широко цитируемые источники, которые имеют хорошую репутацию;
  • Не доверяйте информации без ссылок на источники только потому что это «исследования ученых» или «статистика»;
  • Изучите, как и откуда собиралась информация, на которую ссылается автор;
  • Попытайтесь выяснить, есть ли у источника скрытый мотив оказать влияние на мнение аудитории;
  • Посмотрите, есть ли резко отклоняющиеся значения, неправдоподобные цифры или отсечения в определенных точках. Это может указывать на неправильно проведенное исследование, ошибки в сборе данных или манипуляцию.

Основные правила визуализации больших объемов данных:

1. Будьте внимательны к языку, который вы используете в инфографике. Помните, что за каждой цифрой стоит человек. Если вы сомневаетесь в фразах и выражениях, которые могут оскорбить, пересмотрите свой текст.

Представьте, что вашу визуализацию о COVID-19 видит человек, который только что потерял друга или члена семьи. Может быть, он сам сейчас болен.

Как сделать так, чтобы показать, что мы относимся к людям, стоящим за каждой цифрой, с уважением? Используйте теплый фон, добавьте сильную визуальную идею и поясняющий текст. Вот несколько хороших примеров ниже.

После того, как число жертв COVID-19 в США превысило 100 тысяч человек, NYT представила имена и биографические данные 1000 жертв COVID-19, назвав их смерть «неисчислимой потерей».

Лонгрид WP о массовых расстрелах в США описывает истории людей, которые были убиты из огнестрельного оружия. 199 из них были детьми и подростками, а у тысяч выживших остались невосполнимые психологические шрамы.

2. Старайтесь не округлять в бОльшую сторону для эмоционального усиления. Если вы все же используете округление, то обязательно упомяните об этом.

3. Выбирайте правильную форму для визуализации данных.

На левой карте ниже вы видите информацию о голосовании на Президентских Выборах США 2016 года в разбивке по округам. Похоже на разгромную победу республиканцев, не так ли? Однако это крайне неточное представление. Все эти маленькие геометрические фигуры (округа или каунти) имеют разную численность населения.

Специалист по обработке данных Карим Дуйеб (Karim Douïeb) считает, что наиболее точный способ отразить итоги голосования в разбивке по стране — это использовать цветные точки, варьирующиеся по размеру пропорционально населению каждого округа (карта справа).

<p>Выборы Президента США 2016. <a href="https://api.vc.ru/v2.8/redirect?to=http%3A%2F%2Ftry-to-impeach-this.jetpack.ai%2F&postId=210782" rel="nofollow noreferrer noopener" target="_blank">Try to impeach this? Challenge accepted!</a></p>

Выборы Президента США 2016. Try to impeach this? Challenge accepted!

Внутри каждой из этих больших синих точек все еще есть много людей, которые проголосовали за красный, и наоборот. Информация на картах выше показывает только то, какая партия выиграла голосование в каждом регионе.

Land doesn’t vote. People do.

Роберт Дж. Вандербей (Robert J. Vanderbei), профессор Принстонского университета, представил свой метод отображения результатов президентских выборов. Он заметил, что его округ был окрашен в красный цвет, а результаты голосования по нему были 51-49 в сторону Буша (речь идет о выборах Президента США 2000 года — прим.). Через неделю Роберт опубликовал карту под названием "Фиолетовая Америка", на которой каждый округ имеет градацию цвета от синего к красному в зависимости от итогов голосования.

<p>Выборы Президента США 2016. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fvanderbei.princeton.edu%2FJAVA%2Felection2020%2F&postId=210782" rel="nofollow noreferrer noopener" target="_blank">Princeton University</a></p>

Выборы Президента США 2016. Princeton University

4. Информация должна выглядеть органично в контексте общей истории.

Взгляните на две карты, расположенные ниже. На них представлена информация о количестве людей, инфицированных коронавирусной инфекцией в США.

Первая карта показывает общее количество зараженных. Из нее можно сделать вывод о том, что наиболее пострадавшие регионы — Нью-Йорк и Калифорния. Вторая карта позволяет понять где находятся «горячие точки страны» с наибольшим количеством зараженных на душу населения.

COVID-19. Общее количество зараженных (15 янв 2021). <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.nytimes.com%2Finteractive%2F2020%2Fus%2Fcoronavirus-us-cases.html&postId=210782" rel="nofollow noreferrer noopener" target="_blank">New York Times</a> 
COVID-19. Общее количество зараженных (15 янв 2021). New York Times 
COVID-19. Количество зараженных на душу населения (15 янв 2021). <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.nytimes.com%2Finteractive%2F2020%2Fus%2Fcoronavirus-us-cases.html&postId=210782" rel="nofollow noreferrer noopener" target="_blank">New York Times</a>
COVID-19. Количество зараженных на душу населения (15 янв 2021). New York Times

5. Придерживайтесь классических правил композиции. Они существуют не просто так.

Взгляните на печально известный график от Департамента правопорядка Флориды (FDLE). На первый взгляд кажется, что после принятия закона «Stand Your Ground» число смертей от огнестрельного оружия уменьшилось. Но белое поле на самом деле не является данными, график перевернут.

Автор идет вразрез с основными правилами. Никто не ожидает, что диаграмма будет показывать данные вверх ногами. Условности существуют не просто так, и визуализация всегда должна предвосхищать ожидания читателей.

6. Соблюдайте пропорции. Это более важно, чем показать визуальное различие с точки зрения дизайна.

Во время избирательной кампании 2016 года штаб Дональда Трампа опубликовал более 40 графиков с благоприятными для него опросами.

Обратите внимание на высоту столбцов. Вместо того, чтобы иметь четкую базовую линию, они просто исчезают в затемнении. Для того, чтобы столбцы пропорционально соответствовали результатам опроса (разница 2%), базовая линия должна находиться на значительном удалении.

P.S. Сравнение всех графиков здесь.

7. Адаптивный дизайн.

Информация должна хорошо считываться как на большом экране компьютера или ноутбука, так и на мобильных устройствах. Горизонтальное или квадратное (1:1) соотношение сторон для инфографики считается наиболее оптимальным и удобным для пользователя.

8. Фокусируйтесь на сравнении, о котором вы рассказываете.

Можете ли вы посмотреть на график слева и определить точную сумму роста ВВП США в период с 2017-19 гг? Нулевая ось значительно осложняет восприятие. А теперь взгляните на график справа. Это те же самые данные, но вы с легкостью можете определить изменение ВВП с $19.5 трлн до $21.4 трлн за вышеуказанный период времени.

Используйте правильную базовую линию. Это нормально — не начинать у-ось с нуля. Усекайте ее, когда необходимо сделать акцент на изменении значения.

Бюро экономического анализа (США)
Бюро экономического анализа (США)

Критика из реального мира:

@glichfield What's the reason for not taking the y-axis down to zero (other than upping the scariness)

P.S. Всегда используйте нулевую y-ось для столбиковых диаграмм.

9. Позаботьтесь об охране персональной информации, если вы используете детализированную инфографику.

Компания Tectonix, которая занимается сбором и визуализацией данных на основе информации, собранной с мобильных устройств, представила модель распространения очага коронавируса по всей территории США. Данные с устройств людей, которые были на одном из пляжей Форт-Лодердейла (Флорида) в марте 2020 года, позволили изучить начало распространения очага инфекции по всей страны — сначала вверх по восточному побережью, затем на запад и в Канаду. По заверениям разработчиков, информацию, полученную от пользователей, анонимизировали так, чтобы не было возможности извлечь из графики личные данные пользователей. Но при детальном анализе карты и сопоставлении дат можно деанонимизировать людей, которые стали началом очага.

Want to see the true potential impact of ignoring social distancing? Through a partnership with @xmodesocial, we analyzed secondary locations of anonymized mobile devices that were active at a single Ft. Lauderdale beach during spring break. This is where they went across the US: https://t.co/3A3ePn9Vin
Big data: этика и дизайн

10. Цифры могут быть вырваны из контекста. Смотрите на историю сверху, чтобы увидеть полную картину. Стереотипы — зло.

Согласно статистике Washington Post, число безоружных чернокожих мужчин, убитых полицией в этом году — 8. Белых — 11.

Уильям Барр (William Barr), Генпрокурор США

Уильям Барр (William Barr) процитировал материал WP о жертвах, которые были застрелены полицейскими. Да, это заявление о том, что полиция убивает больше "белых американцев", чем чернокожих, технически точное, но вводит в заблуждение. За этими цифрами скрывается ярко выраженное расовое неравенство. Принимая во внимание пропорции численности населения США, можно сделать вывод о том, что чернокожие американцы погибают от рук полиции более, чем в два раза чаще.

Другой случай — статья WP из Джорджии. Журналисты пишут о том, как политиков заставляли снять локдаун, потому что большинство жертв коронавируса — афроамериканцы.

11. Будьте всегда предельно честны. Упомяните в инфографике о том, как собиралась информация. А также о данных, которые не были представлены или отсутствуют.

WP реконструировал маршрут двух вертолетов Национальной гвардии, которые зависли в воздухе над людьми в ночь, когда на улицы Вашингтона вышли протестующие в связи со смертью Джорджа Флойда.

WP использовал данные из открытых источников Округа Колумбия (высота зданий, ширина улиц, других объектов и другое) для создания точной масштабной модели перемещений вертолетов. Транспондер «черного ястреба» передавал сигнал без каких-либо координат. Поэтому, для того, чтобы полностью восстановить маршрут, редакция WP использовала имеющиеся в их распоряжении фото и видео. Позже, WP опубликовал данные и скрипты анализа траекторий полета в открытом доступе на Github.

Big data: этика и дизайн
Big data: этика и дизайн

12. Хронологический порядок облегчает изучение динамики процессов, а его отсутствие позволяет задуматься о манипуляции данными.

В мае 2020 года Департамент Здравоохранения Джорджии уже не в первый раз подвергся критике за распространение вводящей в заблуждение информации.

Ось x графика не была упорядочена в хронологическом порядке, что привело к тому, что самые высокие значения были сгруппированы слева, а самые низкие — справа, независимо от даты.

График заболеваемости COVID-19, представленный Департаментом Здравоохранения Штата Джорджия, США
График заболеваемости COVID-19, представленный Департаментом Здравоохранения Штата Джорджия, США

13. Не забывайте о подписях и пометках.

Арт-проект oceaniaeuropeamericasafricaasia использует олимпийские кольца для того, чтобы сравнить 5 континентов (Южная и Северная Америки учитываются вместе) в разных сферах экономики и спорта. Безусловно, это оригинальный и запоминающийся визуал, но зрителю сложно быстро сориентироваться без каких-либо подписей, особенно, если это не статичные иллюстрации, а видеоряд. Это отличный пример того, как делать не следует.

Продажи кока-колы в мире в разбивке по континентам.
Продажи кока-колы в мире в разбивке по континентам.

14. Инфографика может оказывать влияние на социальную активность и ответственность, а также стимулировать ее.

Спустя два месяца после того как в США стало известно о первом случае заболевания COVID-19, сообщения о вирусе превратились в постоянный информационный поток.

WP представил симулятор распространения вируса в городе с населением 200 человек. Это не COVID-19, симуляции значительно упрощают сложность реальной жизни. Но подобно распространению вируса среди перемещающихся точек на вашем экране, COVID-19 распространяется через наши человеческие сети — через страны, города, рабочие места и семьи. Поведение одного человека может вызвать волновые эффекты, которые затрагивают людей в других частях мира.

«Если вы хотите, чтобы это было более реалистично, — сказал автор после предварительного просмотра этой графики, — некоторые точки должны исчезнуть.»

Вопрос этики в визуализации данных — это конечно же не то, что выходит на первый план. Редко бывает так, что кто-то начинает обманывать, не изменяя цифр. Тем не менее, задача дизайнера — подать информацию предельно понятно и эстетически красиво. Так аудитории будет легче ее изучить и проанализировать.

Источники:

  • Ethics in Data Visualization. DC Design Week 2020. dcdesignweek.org
  • All numbers are made up, some are useful. Vicki Boykis
  • Does High Public Debt Consistently Stifle Economic Growth? A Critique of Reinhart and Rogof. umass.edu
  • Academic journals are caught up in massive hoax involving 20 fake papers on ‘dog rape culture’, ‘a conceptual penis’, and re-printing a version of Mein Kampf. dailymail.co.uk
  • Spotify Reports Third Quarter 2020 Earnings. newsroom.spotify.com
  • Growth in a Time of Debt. scholar.harvard.edu
  • A new book says married women are miserable. Don’t believe it. vox.com
  • Fake News Comes to Academia. wsj.com
  • Rooter: A Methodology for the Typical Unification of Access Points and Redundancy. mit.edu
  • Publishers withdraw more than 120 gibberish papers. nature.com
  • An incalculable loss. nytimes.com
  • The terrible numbers that grow with each mass shooting. washingtonpost.com
  • Nearly 200,000 deaths, millions of ripples. Each covid-19 fatality shifts attitudes about the virus. washingtonpost.com
  • Try to impeach this? Challenge accepted! try-to-impeach-this.jetpack.ai
  • Election 2000 Results. princeton.edu
  • Coronavirus in the U.S.: Latest Map and Case Count. nytimes.com
  • COVID-19 spread. washingtonpost.com
  • This Chart Shows An Alarming Rise In Florida Gun Deaths After ‘Stand Your Ground’Was Enacted. businessinsider.com
  • Most of Trump’s charts skew the data. And not always in his favor. washingtonpost.com
  • Excess U.S. deaths hit estimated 37,100 in pandemic’s early days, far more than previously known. washingtonpost.com
  • It’s OK not to start your y-axis at zero. qz.com
  • The Costly Toll of Not Shutting Down Spring Break Earlier. nytimes.com
  • Spring Break vs. COVID19: The Real Impact of Ignoring Social Distancing. twitter.com/tectonixgeo
  • Barr Repeats Trump Falsehoods in Congressional Testimony. nytimes.com
  • How many people have been shot and killed by police in the past year? washingtonpost.com
  • For black folks, it’s like a setup: Are you trying to kill us? washingtonpost.com
  • A low-flying ‘show of force’. washingtonpost.com
  • Github. WP Investigative. github.com
  • Georgia’s Covid-19 cases aren’t declining as quickly as initial data suggested they were. vox.com
  • Seeing The World Through The Olympic Rings. npr.org
  • Eye-Opening Olympic Rings Infographics About Global Issues. mymodernmet.com
  • Why outbreaks like coronavirus spread exponentially, and how to «flatten the curve». washingtonpost.com
3333
8 комментариев

Отличный материал и источники! Спасибо!

3
Ответить

Очень интересная статья, спасибо!

1
Ответить

land doesn't vote, people doВ контексте того, что это сказано про США, всё с точностью до наоборот

Ответить

Отличная статья, спасибо за развёрнутый материал) 

Ответить

Washington Post и The NYP нельзя считать бенчмарками объективности и честности, они постоянно искажают данные и информацию исходя из редакционной политики. Предвзятость и манипуляция это обычная практика. 

Ответить

Отличный материал

Ответить