Здоровый взгляд на данные

Сегодня в рубрике #чтопочитать будет размышление на тему информации, памяти, аналитики и дистрибуций.

Всё то, что мы воспринимаем органами чувств, является данными, но надежность их хранения в нашей памяти оставляет желать лучшего. Намного более надежным способом является их запись, особенно если мы записываем данные на компьютере. Если эти записи хорошо организованы, мы называем их данными… хотя бывает так, что и беспорядочные каракули называют этим же словом. Не всегда понятно, почему слово данные многие употребляют так, словно оно имеет заглавную Д.

Почему мы используем данные с большой буквы?

Нам нужно научиться относиться к данным непочтительно прагматично. Эта статья расскажет об основах науки о данных и поможет новичкам сформировать здоровый взгляд на данные.

Начинать данную тему с поиска датасетов в интернете не самая лучшая идея — в таком случае мы рискуем забыть, откуда они вообще появляются. Я же начну с самого начала, чтобы наглядно показать, что создавать данные вы можете в любое время, в любом месте.

Вот обитатели моего кухонного шкафа, которые я разложила на полу.

Эта фотография уже сама по себе представляет данные — она хранится в качестве информации, которую ваш девайс использует для показа различных цветов.

Давайте разберемся в том, что мы видим на этой фотографии. У нас есть бесконечно огромное количество вариантов того, на что мы можем обратить наше внимание. Вот, на что я обычно обращаю внимания, смотря на полки с едой — вес в граммах.

Нет единого закона, который гласит, что вес в граммах, как представлено на изображении, является лучшим выбором для фокусировки внимания. Мы можем выбрать объем, цену, страну производителя — что душе угодно.

А теперь закройте глаза и попытайтесь вспомнить каждую деталь изображения. Получается? У меня тоже нет. Это и является главной причиной, почему мы собираем данные. Если бы мы могли запоминать и безошибочно обрабатывать их в своей голове, у нас не было бы нужды их собирать. Интернет был бы одиноким отшельником, сидящим в пещере, пересчитывающим твиты всего человечества и идеально обрабатывающим все миллиарды наших фотографий с котами.

Так как человеческая память — инструмент ненадежный, лучше будет записать информацию на бумаге, прям как я давным-давно делала это в школе, изучая статистику. У меня всё еще где-то здесь лежит бумага! Давайте запишем наши 27 наблюдений.

Это — данные. Напомните мне, пожалуйста, почему мы ими так восхищаемся? Данные — это всегда лишь карикатура реальности, подстроенная под вкусы автора. Эти данные подвергаются множеству выборов: учитываем ли мы массу упаковки или нет? Какую выбрать единицу измерения? К тому же, я могла совершить ошибки. Вам будет трудно использовать мои данные, ведь вы не знаете, как точно проходил их сбор.

Эта версия записи данных (по сравнению с тем, что творится в моей голове или тем, что лежит на полу) имеет преимущество — она более долговечна и надежна.

Человеческая память не надежна.

Мы воспринимаем «революцию памяти» как нечто само собой разумеющееся с тех пор, как она началась тысячелетие назад, когда купцам было необходимо вести надежные записи того, кто кому и в каком количестве продал тот или иной товар. Просто задумайтесь на секунду, насколько прекрасно иметь универсальную систему письменности, которая хранит числа лучше, чем наш мозг. Когда мы записываем данные, мы как-бы искажаем собственное восприятие реальности, но это дает возможность передавать эти самые данные в неизменном виде другим людям. Письменность замечательна! Она позволяет небольшим кусочкам нашей памяти жить вне наших голов.

Анализируя данные, мы читаем чьи-то чужие воспоминания.

Волнуетесь, что машины превосходят человеческий мозг? Поздно, ведь даже бумага может это сделать! Эти 27 небольших чисел уже представляют большую трудность для вашей памяти, но, если у вас есть под рукой ручка, долговечность этих данных вам гарантирована.

Долговечность — это, конечно, хорошо, но работать с бумагой довольно неудобно. Что если мне, например, захочется расположить эти числа в порядке убывания? Фокус-покус, бумага, расположи числа в порядке убывания! Нет? Вот блин.

Знаете, чем хороши компьютерные программы? Фокус-покус в них на самом деле работает! Поэтому давайте перейдем от бумаги к компьютеру.

Эх, таблицы. Ранний инструмент для работы с данными. На первый взгляд они кажутся довольно дружелюбными.

Таблицы мне не очень нравятся. По сравнению с современными инструментами для анализа данных, они очень ограничены. Я предпочитаю использовать либо Python, либо R. Сегодня давайте разберем R. Вы можете следовать за мной на сайте Jupyter: выберите опцию «with R», затем несколько раз нажмите на иконку ножниц пока не удалится весь начальный код. Поздравляю, 5 секунд — и вы готовы вставить туда мой код и запустить его, нажав Shift + Enter.

Вы уже, наверное, заметили, что в языке R фокус-покус для сортировки данных не такой уж и простой, если вы новичок.

Однако, важно понимать, что это относится как к алгоритмам, так и к различным меню в программе для таблиц. Возможно, вы знаете, как работать с таблицами, но только потому, что вы уже раньше часто встречались с ними, а не потому, что их функционал универсален. Для работы с компьютером, вам надо узнать у вашего знакомого мудреца различные волшебные слова, а затем попрактиковаться в их использовании. Мой любимый мудрец — интернет и он знает абсолютно всё.

Вот так выглядит код, представленный выше, в Jupyter. Для удобства я добавила комментарии, объясняющие работу каждой строки.

Для ускорения вашего обучения, попробуйте изменять некоторые волшебные слова. Например, что произойдет, если поменять TRUE (T) на FALSE (F) в данном коде?

Не правда ли здорово, насколько быстро можно получить ответ? Одна из причин, по которым мне так нравится программирование — это то, что оно объединяет волшебные слова и LEGO.

Если вам когда-либо хотелось научиться волшебству, просто научитесь программированию.

Вся суть программирования вкратце: найдите в интернете, как делать ту или иную вещь; соберите волшебные слова, которые вы выучили; поэкспериментируйте с ними; а затем соберите их как LEGO для достижения поставленной цели.

С нашими 27 значениями есть небольшая проблема — даже после сортировки они для нас не особо полезны. Прочитав следующее число, мы уже забыли предыдущее. Вот вам и человеческий мозг — дайте нам прочитать сортированный список, состоящий из миллиона чисел, и мы запомним максимум несколько последних. Нам нужен быстрый способ упорядочить данные и сделать о них вывод.

Именно для этого и нужна аналитика!

median (weight)

Благодаря алгоритму median() мы можем моментально найти медиану в нашем списке чисел. (Медиана, по сути, означает «среднее значение»)

В итоге, ответ — 284 г. Кому же не понравится получать результаты настолько быстро? Существует много других алгоритмов: min(), max(), mean(), median(), mode(), variance()… попробуйте использовать их все! Или попробуйте вот это волшебное слово и посмотрите, что получится.

summary (weight)

Кстати, эти результаты называют статистикой. Статистика — это любой способ обобщения данных. Но не путайте с наукой, называемой статистикой. Предлагаю вам посмотреть 8-минутное введение в эту науку.

Теперь давайте поговорим об осмыслении данных с помощью изображений. Оказывается, изображение может быть намного ценнее, чем слова.

Банки для чаевых являются реальным примером столбчатых диаграмм. Чем выше они заполнены, тем более “популярна” данная категория. Гистограммы — это почти то же самое, только категории в них упорядочены.

Если мы хотим узнать, как распределены наши 27 значений — например, больше ли из них попадают в диапазон от 0 г до 200 г или в диапазон от 600 г до 800 г? — гистограмма приходит к нам на помощь.

Гистограммы — это один из многих способов обобщения и представления выборочных данных. Чем выше в гистограмме столбец, тем чаще встречается данная категория.

Для создания гистограммы в программе для работы с электронными таблицами, волшебным словом является долгая последовательность кликов в разных меню. На языке R, это намного быстрее:

hist (weight)

Да, конечно, гистограмма получилась довольно безобразная, но её можно улучшить, добавив несколько дополнительных строк в коде. Безобразно или нет, важно знать, насколько просты основы языка R.

Что мы видим на данной гистограмме?

На горизонтальной оси располагаются столбцы (или банки для чаевых, если так удобнее). Изначально шкала этой оси разделяется с шагом в 200 г, но мы это скоро изменим. Вертикальная ось показывает частоту: сколько значений находится в диапазоне от 0 г до 200 г? График показывает 11. Как насчет 600 г и 800 г? Только один (это вроде была столовая соль, если мне память не изменяет).

Мы можем изменить ширину столбцов — по умолчанию она равна 200 г, но нам может понадобиться, например, 100 г. Без проблем! Надо всего лишь разобраться, как работает это заклинание.

hist(weight, col = «salmon2», breaks = seq(0, 1000, 100))

И вот результат:

Теперь мы можем наглядно увидеть, что самые частые категории — 100-200 и 400-500. Кого-то это волнует? Скорее всего нет. Мы построили эту диаграмму просто, потому что могли. В реальности настоящий аналитик данных преуспевает как в быстрой обработке данных, так и в искусстве нахождения важных данных.

Если для нас важны только те 27 измерений, то гистограмма, которую мы построили, представляет собой распределение генеральной совокупности.

Генеральная совокупность — совокупность всех объектов, относительно которых предполагается делать выводы при изучении конкретной задачи.

По сути, распределение — это гистограмма, полученная при использовании hist() на всей генеральной совокупности (всей информации, которая для вас важна), а не только на выборке (данных, которыми мы имеем на текущий момент). Есть и другие важные моменты, конечно, например, шкала оси "y", но их мы разберем в другой статье — математики, не злитесь!

Распределение показывает частоту попадания значений из генеральной совокупности в каждую категорию. Горизонтальная ось показывает значения совокупности. Вертикальная ось — относительную частоту.

Представим, что за генеральную совокупность мы взяли все когда-либо произведенные упакованные продукты питания. В таком случае их распределение приняло бы форму гистограммы всех значений весов данных продуктов. Это распределение может существовать только в теории, ведь мы не можем составить такой набор данных даже если хотели бы, поэтому лучшее, что мы можем сделать это строить догадки, используя хорошие выборки.

Существует множество определений, но мне нравится следующее: «Наука о данных — это научная дисциплина о том, как делать данные полезными». Она состоит из трех разделов, которые включают в себя сбор большого количества информации для вдохновения (аналитика), принятие продуманных решений на основе ограниченного количества информации (статистика) и использовании шаблонов, извлеченных из данных, для автоматизирования задач (ML/AI).

Всю суть науки о данных можно выразить в двух словах: знания — сила.

Вселенная наполнена информацией, которую можно собрать и как-либо использовать. Человеческий мозг, конечно, хорошо разбирается в окружающем нас мире, но хранить и обрабатывать некоторые виды крайне полезной информации ему тяжело.

Поэтому люди начали использовать сначала глиняные таблички, затем бумагу, и наконец кремний (в компьютерных чипах). Мы изобрели программы для быстрой обработки информации, и теперь люди, умеющие в них работать, называют себя аналитиками данных. Настоящими же героями являются те, кто создает инструменты, которые позволяют аналитикам быстро и эффективно обрабатывать информацию. Кстати, даже интернет является аналитическим инструментом, просто мы его редко так воспринимаем, ведь даже дети могут проводить такой анализ данных.

Всё, что мы воспринимаем, хранится где-либо, как минимум временно. В данных нет никакого волшебства — они лишь хранятся более надежно, чем в наших головах. Некоторая информация полезна, некоторая, наоборот, вводит в заблуждение, остальная находятся где-то посередине. Также и с данными.

Мы все — аналитики данных и всегда ими были.

Мы воспринимаем свои биологические умения как нечто само собой разумеющееся, при этом утрируя разницу между процессами обработки информации компьютером и человеком. Разница заключается в долговременности, скорости и масштабах… но одни и те же правила здравого смысла распространятся на оба процесса. Так почему же эти правила вылетают в окно при первой же встрече с математическими уравнениями?

Я рада тому, что мы используем информацию в качестве двигателя прогресса, но я не вижу смысла восхвалять данные как нечто мистическое. К данным стоит относиться по-простому, ведь мы все — аналитики данных и всегда ими были. Давайте поможем всем людям воспринимать себя именно так!

Оригинальная статья

От органов чувств к осмыслению

Письменность и долговечность

Компьютеры и магические заклинания

Аналитика и алгоритмы

Составление графиков и визуализация

Что такое распределение (дистрибуция)?

Что такое «наука о данных»?

Продвинутая память доступна всем