Крупнейшие открытые датасеты для машинного обучения

Крупнейшие открытые датасеты для машинного обучения

t.me/ai_machinelearning_big_data - огромное количество уроков, бесплатных нейросетей , Python гайдов и другого крутого материала в моем телеграм канале.

В этой статье мы расскажем вам, где найти датасеты для различных проектов:

  • Excel
  • Python
  • R
  • Data science
  • Data visualization
  • Data cleaning
  • Machine learning
  • Probability and statistics

Если вы хотите улучшить своё портфолио, показав, что умеете хорошо визуализировать данные, или если у вас есть несколько свободных часов и вы хотите приобрести новые навыки машинного обучения, в этой статье есть всё, что вам нужно!

@bigdatai – все открытые наборы данных в нашем канале Big data.

Общедоступные наборы данных для Data Visualization проектов

Типичным проектом визуализации данных может быть что-то вроде “Я хочу сделать инфографику о том, как доходы различаются в разных штатах США”. Есть несколько соображений, которые следует иметь в виду при поиске хорошего датасета для проекта визуализации данных:

  • Они не должны быть зашумленными, потому что вы не захотите тратить много времени на очистку данных.
  • Они должны быть интересными.
  • Каждый столбец должен быть хорошо объяснён, чтобы визуализация была точной.
  • Набор данных не должен содержать слишком много строк или столбцов, чтобы с ним было легко работать.

Хорошими местами для поиска датасетов для проектов визуализации данных являются новостные сайты, которые публикуют свои данные публично. Обычно они очищают данные за вас и уже имеют диаграммы, которые вы можете воспроизвести или улучшить.

1. FiveThirtyEight

FiveThirtyEight – невероятно популярный интерактивный новостной и спортивный сайт, созданный Нейтом Сильвером. Они пишут интересные статьи, основанные на данных, такие как “Не вините нехватку навыков в отсутствии найма на производстве” и “Прогнозы НФЛ на 2016 год”.

FiveThirtyEight делает датасеты, используемые в своих статьях, доступными онлайн на GitHub.

Вот несколько примеров:

  • Airline Safety— содержит информацию о несчастных случаях от каждой авиакомпании.
  • Study Drugs – данные о тех, кто употребляет Аддералл в США.

2. BuzzFeed

BuzzFeed начинал как поставщик некачественных статей, но с тех пор прошло много времени. Теперь он публикует статьи-расследования, такие как “Суд, который правит миром” и “Короткая жизнь Деонте Хоарда”.

BuzzFeed размещает наборы данных, используемые в своих статьях, на Github.

Вот несколько примеров:

  • Federal Surveillance Planes — содержит данные о самолетах, используемых для внутреннего наблюдения.
  • Zika Virus — данные о географии вспышки вируса Зика.
  • Firearm Background Checks — данные о проверке биографических данных людей, пытающихся купить огнестрельное оружие.

3. NASA

NASA является финансируемой государством правительственной организацией, и поэтому все её данные являются общедоступными. Они поддерживает веб-сайты, где любой желающий может загрузить их наборы данных, относящиеся к науке о Земле, и наборы данных, относящиеся к космосу. Вы даже можете отсортировать их по формату, чтобы найти, например, все доступные наборы данных в формате CSV.

Общедоступные наборы данных для Data Processing проектов

Иногда вы просто хотите поработать с большим набором данных. Конечный результат имеет не такое большое значение, как процесс считывания и анализа данных. Вы можете использовать такие инструменты, как Spark или Hadoop, для распределения обработки. Что следует иметь в виду при поиске хорошего датасета для data processing:

  • Чем чище данные, тем лучше — очистка большого набора данных может занять очень много времени.
  • Набор данных должен быть интересным.
  • Должен быть интересный вопрос, на который можно ответить с помощью данных.

Хорошими местами для поиска больших общедоступных наборов данных являются поставщики облачного хостинга, такие как Amazon и Google. У них есть стимул размещать датасеты, потому что они заставляют вас анализировать их с помощью своей инфраструктуры (и платить им за это).

4. AWS Public Data sets

Amazon предоставляет большие наборы данных, доступные на своей платформе Amazon Web Services. Вы можете загрузить данные и работать с ними на своём собственном компьютере или анализировать данные в облаке с помощью EC2 и Hadoop через EMR. Подробнее о том, как работает программа, вы можете прочитать здесь.

У Amazon есть страница, на которой перечислены все наборы данных, которые вы можете просмотреть. Вам понадобится учетная запись AWS, хотя Amazon предоставляет уровень бесплатного доступа для новых учётных записей, который позволит вам просматривать датасеты без взимания платы.

Вот несколько примеров:

  • Lists of n-grams from Google Books— слова и группы слов из огромного набора книг.
  • Common Crawl Corpus — данные из обхода более 5 миллиардов веб-страниц.
  • Landsat Images — спутниковые снимки поверхности Земли с средним разрешением.

5. Google Public Data sets

Как и у Amazon, у Google также есть услуга облачного хостинга, называемая Google Cloud Platform. С помощью GCP вы можете использовать инструмент под названием BigQuery для изучения больших наборов данных.

Google перечисляет все наборы данных на странице. Вам нужно будет зарегистрироваться в учетной записи GCP, но первые 1 ТБ запросов, которые вы делаете, бесплатны.

Вот несколько примеров:

  • USA Names — содержит все заявки на получение имён в системе социального обеспечения в США с 1879 по 2015 год.
  • Github Activity — содержит всю общедоступную активность в более чем 2,8 миллионах репозиториев Github.
  • Historical Weather — данные с 9000 метеостанций NOAA за период с 1929 по 2016 год.

6. Wikipedia

Википедия – это бесплатная онлайн-энциклопедия, редактируемая сообществом. Википедия содержит поразительную широту знаний, включая страницы обо всём, начиная с Османско-габсбургских войн и заканчивая Леонардом Нимой. В рамках приверженности Википедии распространению знаний, они предлагают свой контент бесплатно и регулярно создают дампы всех статей на сайте. Кроме того, Википедия предлагает историю редактирования и активность, так что вы можете отслеживать, как страница развивается с течением времени и кто вносит в неё свой вклад.

Вы можете найти различные способы загрузки данных на сайте Википедии. Вы также найдете сценарии для переформатирования данных различными способами.

Вот несколько примеров:

Общедоступные наборы данных для Machine Learning проектов

Когда вы работаете над проектом машинного обучения, вы хотите иметь возможность прогнозировать столбец из других столбцов в наборе данных. Для того, чтобы иметь возможность это сделать, нам нужно убедиться, что:

  • Набор данных не слишком беспорядочный — если это не так, мы потратим все наше время на очистку данных.
  • Есть интересная целевая колонка, для которой можно делать прогнозы.
  • Другие переменные обладают некоторой объяснительной силой для целевого столбца.

Существует несколько онлайн-хранилищ наборов данных, предназначенных специально для машинного обучения. Эти наборы данных обычно очищаются заранее и позволяют очень быстро протестировать алгоритмы.

7. Kaggle

Kaggle – это сообщество специалистов по обработке данных, которое проводит соревнования по машинному обучению. На сайте есть множество интересных датасетов, предоставленных извне. В Kaggle проводятся как живые, так и исторические соревнования. Вы можете загрузить данные для любого из них, но вы должны зарегистрироваться в Kaggle и принять условия предоставления услуг для конкурса.

Вы можете загрузить данные из Kaggle, приняв участие в конкурсе. Каждое соревнование имеет свой собственный связанный набор данных.

Вот несколько примеров:

  • Satellite Photograph Order — набор данных спутниковых фотографий Земли — цель состоит в том, чтобы предсказать, какие фотографии были сделаны раньше других.
  • Manufacturing Process Failures — набор переменных, которые были измерены в ходе производственного процесса. Цель состоит в том, чтобы предсказать сбои в производстве.
  • Multiple Choice Questions — набор данных из вопросов с множественным выбором и соответствующих правильных ответов. Цель состоит в том, чтобы предсказать ответ на любой заданный вопрос.

8. UCI Machine Learning Repository

UCI Machine Learning Repository – один из старейших источников наборов данных в Интернете. Хотя наборы данных предоставляются пользователями и, следовательно, имеют разный уровень документации и чистоты, подавляющее большинство из них являются чистыми и готовы к применению машинного обучения. UCI – отличная первая остановка при поиске интересных наборов данных.

Вы можете загружать данные непосредственно из репозитория машинного обучения UCI без регистрации. Эти наборы данных, как правило, довольно малы и не содержат большого количества нюансов, но хороши для машинного обучения.

Вот несколько примеров:

  • Email Spam — содержит электронные письма вместе с пометкой о том, являются ли они спамом или нет.
  • Wine Classification — содержит различные атрибуты 178 вин.
  • Solar Flares — атрибуты солнечных вспышек, полезные для прогнозирования характеристик вспышек.

9. Quandl

Quandl – это хранилище экономических и финансовых данных. Часть этой информации бесплатна, но многие датасеты необходимо приобрести. Quandl полезен для построения моделей для прогнозирования экономических показателей или цен на акции. Благодаря большому количеству доступных наборов данных можно построить сложную модель, которая использует множество наборов данных для прогнозирования значений в другом датасете.

Вот несколько примеров:

Общедоступные наборы данных для Data Cleaning проектов:

Чтобы обучить нейросеть производить очистку наборов данных, необходимо предоставить ей большое количество датасетов. Важным условием будет являться наличие данных, которые совсем не подойдут для проекта. Именно их нейросеть и будет удалять.

10. data.world

data.world описывает себя как “социальную сеть для людей, работающих с данными”, но правильнее было бы назвать её “GitHub для данных”. Это место, где вы можете искать, копировать, анализировать и загружать наборы данных. Кроме того, вы можете загрузить свои данные в data.world и использовать их для совместной работы с другими пользователями.

За относительно короткое время он стал одним из самых популярных мест для сбора данных, благодаря множеству пользовательских датасетов, а также фантастическим наборам данных через партнерские отношения data.world с различными организациями, включая большое количество данных от федерального правительства США.

Одним из ключевых отличий data.world является то, что они создали инструменты, облегчающие работу с данными – вы можете писать SQL-запросы в их интерфейсе для изучения данных и объединения нескольких датасетов. У них также есть SDK для R и Python, чтобы упростить получение данных и работу с ними в выбранном вами инструменте.

11. Data.gov

Data.gov – это относительно новый сайт, который является частью усилий США. Data.gov позволяет загружать данные из нескольких правительственных учреждений США. Данные могут варьироваться от государственных бюджетов до показателей успеваемости в школах. Большая часть данных требует дополнительного исследования, и иногда бывает трудно определить, какой набор данных является “чистым”. Загрузить данные может любой желающий.

Вы можете просматривать наборы данных на Data.gov напрямую, без регистрации.

Вот несколько примеров:

  • Food Environment Atlas — содержит данные о том, как выбор местных жителей влияет на рацион питания в США.
  • School System Finances— обзор финансов школьных систем в США.
  • Chronic Disease Data — данные о показателях хронических заболеваний в районах по всей территории США.

12. The World Bank

The World Bank – это глобальная организация, которая предлагает кредиты и консультации развивающимся странам. Всемирный банк регулярно финансирует программы в развивающихся странах, а затем собирает данные для мониторинга успеха этих программ.

Вы можете просматривать наборы данных The World Bank напрямую, без регистрации. В датасетах много недостающих значений, и иногда требуется несколько щелчков мыши, чтобы фактически получить доступ к данным.

Вот несколько примеров:

13. /r/datasets

На Reddit, популярном дискуссионном сайте сообщества, есть раздел, посвященный обмену интересными наборами данных. Он называется субреддит datasets, или /r/datasets. Объём этих наборов данных сильно варьируется, поскольку все они представлены пользователями. Но,как правило, эти датасеты очень интересны и содержат нюансы.

Вот несколько примеров:

  • All Reddit Sublessons — содержит все подзаголовки reddit до 2015 года.
  • Jeopardy Questions — вопросы и количество баллов из игрового шоу Jeopardy.
  • New York City Property Tax Data – данные о недвижимости и оценочной стоимости в Нью-Йорке.

14. Academic Torrents

Academic Torrents – это новый сайт, предназначенный для обмена датасетами из научных работ. Это новый сайт, поэтому трудно сказать, как будут выглядеть наиболее распространённые типы наборов данных. В настоящий момент, на нём есть множество интересных датасетов, которым не хватает контекста.

Вы можете просматривать наборы данных непосредственно на сайте. Поскольку это торрент-сайт, все наборы данных можно сразу загрузить, но тогда вам понадобится клиент Bittorrent. Deluge – хороший бесплатный вариант.

Вот несколько примеров:

  • Enron Emails — набор из множества электронных писем от руководителей Enron, компании, которая, как известно, обанкротилась.
  • Student Learning Factors — набор факторов, которые измеряют обучение студентов и влияют на него.
  • News Articles — содержит атрибуты новостной статьи.

БОНУС: Streaming data

Когда вы создаёте проект в области науки о данных, вы очень часто загружаете датасет, а затем обрабатываете его. Однако по мере того, как онлайн-сервисы генерируют всё больше и больше данных, всё больший объём генерируется в режиме реального времени и недоступен в виде датасета. Некоторые примеры этого включают данные о твитах из Twitter и данные о ценах на акции. Существует не так много хороших источников для получения такого рода данных, но мы перечислим некоторые из них на случай, если вы захотите попробовать свои силы в проекте streaming data.

15. Twitter

Twitter имеет хороший потоковый API, который позволяет относительно просто фильтровать и транслировать твиты. Вы можете начать здесь. Здесь есть масса вариантов — вы могли бы выяснить, какие штаты самые счастливые или в каких странах используется самый сложный язык.

16. GitHub

У GitHub есть API, который позволяет вам получать доступ репозиториям и коду. Вы можете начать работу с API здесь. Возможности безграничны — вы могли бы создать систему для автоматической оценки качества кода или выяснить, как код развивается с течением времени в крупных проектах.

17. Wunderground

Wunderground имеет API для прогнозов погоды, который позволяет бесплатно совершать до 500 вызовов API в день. Вы могли бы использовать эти вызовы для создания набора исторических данных о погоде и составления прогнозов погоды на завтра.

18. Global Health Observatory

Всемирная организация здравоохранения (WHO) ведёт большой датасет о глобальном здоровье в Глобальной обсерватории здравоохранения (GHO). Набор данных включает в себя все данные WHO о глобальной пандемии COVID-19. GHO предлагает широкий спектр данных по таким темам, как устойчивость к противомикробным препаратам, деменция, загрязнение воздуха и иммунизация.

В GHO можно найти данные практически по любой теме, связанной со здоровьем, что делает его чрезвычайно ценным бесплатным ресурсом базы данных для специалистов по обработке данных, работающих в области здравоохранения.

19. Pew Research Center

Pew Research Center хорошо известен своими исследованиями в области политических и социальных наук. В интересах дальнейшего исследования и публичного обсуждения они делают все свои наборы данных общедоступными для загрузки по истечении определенного периода времени.

Вы можете выбрать из наборов данных по политике США, журналистике и средствам массовой информации, интернету и технологиям, науке и обществу, религии и общественной жизни, среди прочих тем.

20. National Climatic Data Center

Изменение климата – очень актуальная тема в настоящее время. Специалисты по обработке данных, которые хотят получить точные данные о погоде и климате, могут получить доступ к большим датасетам США из National Climatic Data Center (NCEI).

БОНУС: Personal Data

Интернет полон интересных наборов данных, с которыми вы можете работать. Но было бы действительно интересно провести анализ ваших собственных персональных данных

Вот несколько популярных сайтов, которые позволяют загружать сгенерированные вами данные и работать с ними.

21. Amazon

Amazon позволяет вам загружать ваши личные данные о расходах, историю заказов и многое другое. Чтобы получить к ним доступ, нажмите на эту ссылку (для её работы вам необходимо войти в систему) или перейдите к кнопке Учетные записи и списки в правом верхнем углу.

На следующей странице найдите раздел “Настройки заказа и покупок” и нажмите на ссылку под этим заголовком с надписью “Загрузить отчёты о заказах”.

22. Facebook

Facebook также позволяет вам загружать данные о вашей личной активности. Чтобы получить к ним доступ, перейдите по этой ссылке (для её работы вам необходимо войти в систему) и выберите типы данных, которые вы хотели бы загрузить.Вот пример простого проекта данных, который вы могли бы создать, используя свои собственные личные данные Facebook.

23. Netflix

Netflix позволяет вам запрашивать ваши собственные данные для загрузки, хотя вам придётся попотеть. К тому же, данный процесс может занять 30 дней. По состоянию на последний раз, когда мы проверяли данные, которые они позволяют вам загружать, они довольно ограничены, но всё ещё могут быть пригодны для некоторых типов проектов и анализа.

24. Еще датасеты

Наша с большая статья-путеводитель по открытым наборам данных для машинного обучения.

25. Лингвистические датасеты на русском

Тональный словарь русского языка КартаСловСент — слова и выражения русского языка, снабжённые тональной меткой («положительное», «отрицательное», «нейтральное») и скалярным значением силы эмоционально-оценочного заряда из непрерывного диапазона [-1, 1].

Орфографические ошибки и опечатки — слова русского языка и варианты их неправильного написания. Включает в себя как орфографические ошибки, так и опечатки. Все ошибочные написания снабжены весами, позволяющими оценить относительную частоту встречаемости тех или иных ошибок.

Открытая семантика русского языка — разметка слов и выражений русского языка по семантическим срезам («люди», «животные», «сооружения», «вещи», «действия» и т.д.).

Ассоциации к словам и выражениям русского языка — ассоциации к словам и выражениям русского языка, придуманные реальными людьми. Кроме общего набора публикуются данные срезов по гендеру, т.е. включающие частоты ассоциаций, подсчитанные отдельно для мужчин и для женщин.

Данные: github.com/Alenush/russian_event2mind

Прилагательные вручную аннотированные для временных семантических сдвигов в промежутке времени от 2000 до 2014 года.

RULEC-GEC – это набор предложений, написанных изучающими русский язык и помеченных на ошибки.

26.Устная речь

БОНУС: Мощный инструмент поиска по набору данных

Google Dataset Search

Итак, это не совсем набор данных – скорее, инструмент для поиска соответствующих датасетов. Как вы уже знаете, Google – это центр обработки данных, поэтому вполне логично, что их инструмент поиска превосходит другие способы поиска конкретных датасетов.

Всё, что вам нужно сделать, это зайти в Google Dataset Search и ввести ключевое слово или фразу, относящуюся к искомому набору данных, в строке поиска. В результатах будут перечислены все наборы данных, проиндексированные в Google по этому конкретному поисковому запросу. Наборы данных, как правило, взяты из высококачественных источников, некоторые из которых бесплатны, а другие доступны за плату или подписку.

33
Начать дискуссию