23 сайта с дата сетами: для усиления портфолио аналитика

От автора telegram-канала Аналитика и Growth mind-set (делюсь кейсами с работы, бесплатным обучением, и теперь уже историей поиска удаленной работы заграницей).

Эта статья для тех, кто хочет укрепить свое портфолио как аналитика или просто попрактиковаться в свободное время.

Особенно будет полезно начинающим аналитикам, которые хотят получить опыт в аналитике.

Общедоступные наборы данных для проектов визуализации данных

Типичный проект визуализации данных может выглядеть примерно так: «Я хочу сделать инфографику о том, как меняется доход в разных регионах России».

FiveThirtyEight

FiveThirtyEight — популярный интерактивный новостной и спортивный сайт, созданный Нейтом Сильвером. Они пишут интересные статьи, основанные на данных.

FiveThirtyEight делает наборы данных, используемые в своих статьях, доступными онлайн на GitHub.

Примеры:

NASA

NASA — государственная организация, финансируемая США, поэтому все ее данные общедоступны.

BuzzFeed

BuzzFeed - еще один новостной сайт.

BuzzFeed размещает наборы данных, используемые в своих статьях, на Github.

Примеры:

Общедоступные наборы данных для проектов обработки данных

Иногда конечный результат (например, в виде визуализации) не так важен и вы просто хотите работать с данными.

Хорошими местами для поиска больших общедоступных наборов данных являются поставщики облачного хостинга, такие как Amazon и Google.

Google Public Data sets

У Google есть служба облачного хостинга, которая называется Google Cloud Platform. С GCP вы можете использовать инструмент под названием BigQuery для изучения больших наборов данных.

Google перечисляет все наборы данных на странице. Вам нужно будет зарегистрировать учетную запись GCP. Первые 1 ТБ запросов, которые вы делаете, бесплатны.

AWS Public Data sets

У Amazon есть страница, на которой перечислены все наборы данных. Вам понадобится учетная запись AWS, хотя Amazon предоставляет уровень бесплатного доступа для новых учетных записей, который позволит вам просматривать данные без взимания платы.

Примеры:

  • Common Crawl Corpus — данные сканирования более 5 миллиардов веб-страниц.
  • Landsat Images — спутниковые снимки поверхности Земли среднего разрешения.

Wikipedia

Стоит ли говорить, что в Википедии содержится большое количество знаний из разных сфер.

Вы можете найти различные способы загрузки данных на сайте Википедии. Вы также найдете сценарии для переформатирования данных различными способами.

Примеры:

Общедоступные наборы данных для проектов машинного обучения

Есть несколько онлайн-хранилищ наборов данных, специально предназначенных для машинного обучения. Эти наборы данных обычно очищаются заранее и позволяют очень быстро тестировать алгоритмы.

Kaggle

Kaggle — это сообщество специалистов по обработке и анализу данных, которое проводит соревнования по машинному обучению. На сайте есть множество интересных наборов данных.

Примеры:

  • Satellite Photograph Order — набор данных спутниковых фотографий Земли — цель состоит в том, чтобы предсказать, какие фотографии были сделаны раньше других.
  • Вопросы с несколькими вариантами ответов — набор данных вопросов с несколькими вариантами и соответствующих им правильных ответов. Цель состоит в том, чтобы предсказать ответ на любой заданный вопрос.

Quandl

Quandl — это хранилище экономических и финансовых данных. Часть этой информации бесплатна, но многие наборы данных требуют покупки. Quandl полезен для построения моделей для прогнозирования экономических показателей или цен на акции.

Примеры:

UCI Machine Learning Repository

Репозиторий машинного обучения — один из старейших источников наборов данных в Интернете. Хотя наборы данных вносятся пользователями и, следовательно, имеют разный уровень документации и чистоты, подавляющее большинство чисты и готовы к применению машинного обучения.

Примеры:

Общедоступные наборы данных для проектов очистки данных

data.world

data.world описывает себя как «социальную сеть для людей, работающих с данными», но правильнее было бы описать ее как «GitHub для данных». Это место, где вы можете искать, копировать, анализировать и загружать наборы данных. Кроме того, вы можете загружать свои данные в data.world и использовать их для совместной работы с другими.

Одним из ключевых отличий data.world является то, что они создали инструменты, облегчающие работу с данными — вы можете писать SQL-запросы в их интерфейсе для изучения данных и объединения нескольких наборов данных. У них также есть SDK для R и Python, которые упрощают сбор данных и работу с ними в выбранном вами инструменте.

The World Bank

Всемирный банк — это глобальная организация развития, которая предлагает кредиты и консультации развивающимся странам. Всемирный банк регулярно финансирует программы в развивающихся странах, а затем собирает данные для контроля за успехом этих программ.

Примеры:

/r/datasets

На Reddit, популярном дискуссионном сайте сообщества, есть раздел, посвященный обмену интересными наборами данных. Он называется сабреддит наборов данных или /r/datasets. Объем этих наборов данных сильно различается, поскольку все они отправляются пользователями, но они, как правило, очень интересны.

Примеры:

Data.gov

Data.gov — это относительно новый сайт, который является частью усилий США по созданию открытого правительства. Data.gov позволяет загружать данные из нескольких государственных учреждений США.

Academic Torrents

Academic Torrents — это новый сайт, предназначенный для обмена наборами данных из научных статей.

Потоковые данные

Очень часто, когда вы создаете проект по науке о данных, вы загружаете набор данных, а затем обрабатываете его. Однако по мере того, как онлайн-сервисы генерируют все больше и больше данных, все большее их количество создается в режиме реального времени и недоступно в виде наборов данных.

Twitter

Twitter имеет хороший потоковый API и позволяет относительно просто фильтровать и транслировать твиты. Здесь есть множество вариантов — вы можете выяснить, какие штаты самые счастливые или в каких странах используется самый сложный язык.

GitHub

GitHub имеет API, который позволяет вам получать доступ к действиям и коду репозитория. Варианты бесконечны — вы можете создать систему для автоматической оценки качества кода или выяснить, как со временем меняется код в больших проектах.

Wunderground

У Wunderground есть API для прогнозов погоды, который позволяет бесплатно выполнять до 500 вызовов API в день. Вы можете использовать эти вызовы для создания набора исторических данных о погоде и прогнозирования погоды на завтра.

Global Health Observatory

Всемирная организация здравоохранения (ВОЗ) хранит большой набор данных о глобальном здравоохранении в Глобальной обсерватории здравоохранения (GHO). Набор данных включает все данные ВОЗ о глобальной пандемии COVID-19. GHO предлагает широкий спектр данных по таким темам, как устойчивость к противомикробным препаратам, деменция, загрязнение воздуха и иммунизация.

Pew Research Center

Pew Research Center известен своими исследованиями в области политических и социальных наук. В интересах дальнейшего исследования и общественного обсуждения они делают все свои наборы данных общедоступными для вторичного анализа по истечении установленного периода времени.

National Climatic Data Center

Изменение климата — горячая тема на данный момент. Специалисты по данным, которые хотят получить данные о погоде и климате, могут получить доступ к большим наборам данных США из Национальных центров экологической информации (NCEI).

Персональные данные

В Интернете полно классных наборов данных, с которыми можно работать. Но как насчет анализа ваших личных данных?

Вот несколько популярных сайтов, которые позволяют загружать сгенерированные вами данные и работать с ними.

Amazon

Amazon позволяет загружать данные о ваших личных расходах, историю заказов и многое другое. Чтобы получить к нему доступ, перейдите к кнопке «Учетные записи и списки» в правом верхнем углу.

На следующей странице найдите раздел «Настройки заказа и покупок» и нажмите ссылку под этим заголовком «Загрузить отчеты о заказах».

Facebook

Facebook также позволяет загружать данные о вашей личной активности. Чтобы получить к нему доступ, щелкните эту ссылку (вам нужно будет войти в систему, чтобы она работала) и выберите типы данных, которые вы хотите загрузить. Вот пример простого проекта данных, который вы можете создать, используя свои собственные Данные Фейсбука.

Netflix

Netflix позволяет вам запрашивать свои собственные данные для загрузки. По последней информации, данные, которые они позволяют выгружать, довольно ограничены, но они все же могут подойти для некоторых типов проектов и анализа.

Если вам интересна аналитика, заходите в мой телеграм канал Аналитика и Growth mind-set.

Вот несколько полезных постов из моего телеграм-канала:

55
реклама
разместить
Начать дискуссию