23 сайта с дата сетами: для усиления портфолио аналитика
От автора telegram-канала Аналитика и Growth mind-set (делюсь кейсами с работы, бесплатным обучением, и теперь уже историей поиска удаленной работы заграницей).
Эта статья для тех, кто хочет укрепить свое портфолио как аналитика или просто попрактиковаться в свободное время.
Особенно будет полезно начинающим аналитикам, которые хотят получить опыт в аналитике.
Общедоступные наборы данных для проектов визуализации данных
Типичный проект визуализации данных может выглядеть примерно так: «Я хочу сделать инфографику о том, как меняется доход в разных регионах России».
FiveThirtyEight
FiveThirtyEight — популярный интерактивный новостной и спортивный сайт, созданный Нейтом Сильвером. Они пишут интересные статьи, основанные на данных.
FiveThirtyEight делает наборы данных, используемые в своих статьях, доступными онлайн на GitHub.
Примеры:
- Безопасность авиалиний — содержит информацию об авариях каждой авиакомпании.
- US Weather History — исторические данные о погоде в США.
NASA
NASA — государственная организация, финансируемая США, поэтому все ее данные общедоступны.
BuzzFeed
BuzzFeed - еще один новостной сайт.
BuzzFeed размещает наборы данных, используемые в своих статьях, на Github.
Примеры:
- Вирус Zika — данные о географии вспышки вируса Zika.
- Проверки сведений об огнестрельном оружии — данные о проверках сведений о людях, пытающихся купить огнестрельное оружие.
Общедоступные наборы данных для проектов обработки данных
Иногда конечный результат (например, в виде визуализации) не так важен и вы просто хотите работать с данными.
Хорошими местами для поиска больших общедоступных наборов данных являются поставщики облачного хостинга, такие как Amazon и Google.
Google Public Data sets
У Google есть служба облачного хостинга, которая называется Google Cloud Platform. С GCP вы можете использовать инструмент под названием BigQuery для изучения больших наборов данных.
Google перечисляет все наборы данных на странице. Вам нужно будет зарегистрировать учетную запись GCP. Первые 1 ТБ запросов, которые вы делаете, бесплатны.
AWS Public Data sets
У Amazon есть страница, на которой перечислены все наборы данных. Вам понадобится учетная запись AWS, хотя Amazon предоставляет уровень бесплатного доступа для новых учетных записей, который позволит вам просматривать данные без взимания платы.
Примеры:
- Common Crawl Corpus — данные сканирования более 5 миллиардов веб-страниц.
- Landsat Images — спутниковые снимки поверхности Земли среднего разрешения.
Wikipedia
Стоит ли говорить, что в Википедии содержится большое количество знаний из разных сфер.
Вы можете найти различные способы загрузки данных на сайте Википедии. Вы также найдете сценарии для переформатирования данных различными способами.
Примеры:
Общедоступные наборы данных для проектов машинного обучения
Есть несколько онлайн-хранилищ наборов данных, специально предназначенных для машинного обучения. Эти наборы данных обычно очищаются заранее и позволяют очень быстро тестировать алгоритмы.
Kaggle
Kaggle — это сообщество специалистов по обработке и анализу данных, которое проводит соревнования по машинному обучению. На сайте есть множество интересных наборов данных.
Примеры:
- Satellite Photograph Order — набор данных спутниковых фотографий Земли — цель состоит в том, чтобы предсказать, какие фотографии были сделаны раньше других.
- Вопросы с несколькими вариантами ответов — набор данных вопросов с несколькими вариантами и соответствующих им правильных ответов. Цель состоит в том, чтобы предсказать ответ на любой заданный вопрос.
Quandl
Quandl — это хранилище экономических и финансовых данных. Часть этой информации бесплатна, но многие наборы данных требуют покупки. Quandl полезен для построения моделей для прогнозирования экономических показателей или цен на акции.
Примеры:
- Предпринимательская активность по расе и другим факторам — содержит данные фонда Кауфмана о предпринимателях в США.
- Данные Федеральной резервной системы США — экономические показатели США от Федеральной резервной системы.
UCI Machine Learning Repository
Репозиторий машинного обучения — один из старейших источников наборов данных в Интернете. Хотя наборы данных вносятся пользователями и, следовательно, имеют разный уровень документации и чистоты, подавляющее большинство чисты и готовы к применению машинного обучения.
Примеры:
- Классификация вин — содержит различные атрибуты 178 различных вин.
Общедоступные наборы данных для проектов очистки данных
data.world
data.world описывает себя как «социальную сеть для людей, работающих с данными», но правильнее было бы описать ее как «GitHub для данных». Это место, где вы можете искать, копировать, анализировать и загружать наборы данных. Кроме того, вы можете загружать свои данные в data.world и использовать их для совместной работы с другими.
Одним из ключевых отличий data.world является то, что они создали инструменты, облегчающие работу с данными — вы можете писать SQL-запросы в их интерфейсе для изучения данных и объединения нескольких наборов данных. У них также есть SDK для R и Python, которые упрощают сбор данных и работу с ними в выбранном вами инструменте.
The World Bank
Всемирный банк — это глобальная организация развития, которая предлагает кредиты и консультации развивающимся странам. Всемирный банк регулярно финансирует программы в развивающихся странах, а затем собирает данные для контроля за успехом этих программ.
Примеры:
/r/datasets
На Reddit, популярном дискуссионном сайте сообщества, есть раздел, посвященный обмену интересными наборами данных. Он называется сабреддит наборов данных или /r/datasets. Объем этих наборов данных сильно различается, поскольку все они отправляются пользователями, но они, как правило, очень интересны.
Примеры:
Data.gov
Data.gov — это относительно новый сайт, который является частью усилий США по созданию открытого правительства. Data.gov позволяет загружать данные из нескольких государственных учреждений США.
- Food Environment Atlas — содержит данные о том, как выбор местных продуктов питания влияет на диету в США.
- Данные о хронических заболеваниях в США
Academic Torrents
Academic Torrents — это новый сайт, предназначенный для обмена наборами данных из научных статей.
Потоковые данные
Очень часто, когда вы создаете проект по науке о данных, вы загружаете набор данных, а затем обрабатываете его. Однако по мере того, как онлайн-сервисы генерируют все больше и больше данных, все большее их количество создается в режиме реального времени и недоступно в виде наборов данных.
Twitter имеет хороший потоковый API и позволяет относительно просто фильтровать и транслировать твиты. Здесь есть множество вариантов — вы можете выяснить, какие штаты самые счастливые или в каких странах используется самый сложный язык.
GitHub
GitHub имеет API, который позволяет вам получать доступ к действиям и коду репозитория. Варианты бесконечны — вы можете создать систему для автоматической оценки качества кода или выяснить, как со временем меняется код в больших проектах.
Wunderground
У Wunderground есть API для прогнозов погоды, который позволяет бесплатно выполнять до 500 вызовов API в день. Вы можете использовать эти вызовы для создания набора исторических данных о погоде и прогнозирования погоды на завтра.
Global Health Observatory
Всемирная организация здравоохранения (ВОЗ) хранит большой набор данных о глобальном здравоохранении в Глобальной обсерватории здравоохранения (GHO). Набор данных включает все данные ВОЗ о глобальной пандемии COVID-19. GHO предлагает широкий спектр данных по таким темам, как устойчивость к противомикробным препаратам, деменция, загрязнение воздуха и иммунизация.
Pew Research Center
Pew Research Center известен своими исследованиями в области политических и социальных наук. В интересах дальнейшего исследования и общественного обсуждения они делают все свои наборы данных общедоступными для вторичного анализа по истечении установленного периода времени.
National Climatic Data Center
Изменение климата — горячая тема на данный момент. Специалисты по данным, которые хотят получить данные о погоде и климате, могут получить доступ к большим наборам данных США из Национальных центров экологической информации (NCEI).
Персональные данные
В Интернете полно классных наборов данных, с которыми можно работать. Но как насчет анализа ваших личных данных?
Вот несколько популярных сайтов, которые позволяют загружать сгенерированные вами данные и работать с ними.
Amazon
Amazon позволяет загружать данные о ваших личных расходах, историю заказов и многое другое. Чтобы получить к нему доступ, перейдите к кнопке «Учетные записи и списки» в правом верхнем углу.
На следующей странице найдите раздел «Настройки заказа и покупок» и нажмите ссылку под этим заголовком «Загрузить отчеты о заказах».
Facebook также позволяет загружать данные о вашей личной активности. Чтобы получить к нему доступ, щелкните эту ссылку (вам нужно будет войти в систему, чтобы она работала) и выберите типы данных, которые вы хотите загрузить. Вот пример простого проекта данных, который вы можете создать, используя свои собственные Данные Фейсбука.
Netflix
Netflix позволяет вам запрашивать свои собственные данные для загрузки. По последней информации, данные, которые они позволяют выгружать, довольно ограничены, но они все же могут подойти для некоторых типов проектов и анализа.
Если вам интересна аналитика, заходите в мой телеграм канал Аналитика и Growth mind-set.
Вот несколько полезных постов из моего телеграм-канала: