Подборка датасетов для машинного обучения

Привет, читатель! Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения.

В закладки

В ней я для начала соберу подборку интересных и свежих (относительно) датасетов. А бонусом в конце статьи прикреплю полезные ссылки по самостоятельному поиску датасетов.

Итак, меньше слов, больше данных.

Подборка датасетов для машинного обучения

  • Данные смертей и сражений из «Игры престолов». Набор данных объединяет три источника, каждый из которых основан на информации из серии книг.
  • Глобальная база данных терроризма. Более 180 тысяч террористических атак по всему миру: с 1970 года по 2017 год.
  • Биткоин, исторические данные. Данные биткоина с интервалом в 1 минуту с избранных бирж: с января 2012 года по март 2019 года.
  • FIFA 19 полный набор данных игроков. Больше 18 тысяч игроков FIFA 19, примерно 90 атрибутов, извлечённых из последней базы данных FIFA.
  • Статистика видео YouTube. Ежедневная статистика трендовых видео на YouTube.
  • Обзор показателей самоубийств с 1985 года по 2016 год. Сравнение социально-экономической информации с показателями самоубийств по годам и странам.
  • Huge Stock Market Dataset. Исторические дневные цены и объёмы всех американских акций и ETF.
  • Индикаторы мирового развития. Показатели развития стран со всего мира.
  • Kaggle Machine Learning & Data Science Survey 2017. Большое представление о состоянии науки о данных и машинного обучения.
  • Данные о насилии и оружии. Полный отчёт о более чем 260 тысячах американских инцидентов с применением оружия в 2013–2018 годах.
  • Рентгенография грудной клетки (пневмония). 5863 изображения, две категории.
  • Распознавание пола по голосу. Эта база данных была создана, чтобы идентифицировать голос как мужской или женский, основываясь на акустических свойствах голоса и речи. Набор данных состоит из 3168 записанных голосовых сэмплов, собранных от мужчин и женщин.
  • Студенческое потребление алкоголя. Данные были получены в ходе опроса учащихся по математике и португальскому языку на курсах в средней школе. Он содержит много интересной социальной, гендерной и учебной информации о студентах.
  • Набор данных о клетках малярии. Сотовые изображения для выявления малярии.
  • Опросы молодых людей. Данные о предпочтениях, интересах, привычках, мнениях и страхах молодых людей.
  • Мировые рейтинги университетов. Исследуйте лучшие университеты мира.
  • Обнаружение мошенничества с кредитными картами. Датасет по анонимным транзакциям кредитных карт, помеченные как мошеннические или подлинные.
  • Датасет болезней сердца. База данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.
  • Европейская футбольная база. Больше 25 тысяч матчей, атрибуты игроков и команд для европейского профессионального футбола.
  • Винные обзоры. 130 тысяч винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.
  • Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и так далее.
  • Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
  • Распознавание цветов. Набор данных содержит 4242 изображения цветов. Сбор данных основан на данных Flickr, изображениях Google и «Яндекса».
  • Ежедневная рыночная цена каждой криптовалюты. Исторические цены на криптовалюту для всех токенов.
  • Шоколадный рейтинг. Экспертный рейтинг более 1700 шоколадных батончиков.
  • Рынок медицинского страхования. Данные о планах в области здравоохранения и стоматологии на рынке медицинского страхования США.
  • Звуки сердцебиения. Классификация аномалий сердцебиения по стетоскопу.
  • База данных аниме рекомендаций. Рекомендации от 76 тысяч пользователей на myanimelist.net
  • Изображения клеток крови. 12 500 изображений: четыре разных типа клеток.
  • Рентгенография грудной клетки. Более 112 тысяч рентгенограмм грудной клетки от более чем 30 тысяч уникальных пациентов.
  • Отчеты об убийствах, 1980–2014 годы. Проект «Ответственность за убийства» — самая полная база данных об убийствах в Соединенных Штатах, доступных в настоящее время.
  • База данных подержанных автомобилей. Более 370 тысяч подержанных автомобилей. Содержание данных на немецком языке, поэтому нужно сначала перевести их, если вы не говорите на немецком.
  • Дом открытых данных правительства США. Данные, инструменты и ресурсы для проведения исследований, разработки веб-приложений и мобильных приложений, разработки визуализаций данных.
  • Национальный центр профилактики хронических заболеваний и укрепления здоровья (NCCDPHP). Центр работает над снижением факторов риска хронических заболеваний.
  • Крупнейший в Великобритании сборник социальных, экономических и демографических ресурсов.
  • EconData. Несколько тысяч экономических временных рядов, подготовленных рядом правительственных учреждений США и распространенных в различных форматах и СМИ.
  • Центр исследования побережья. Интересные данные о море и его биологическом составе. Здесь можно найти датасеты начиная с анализа данных модели Красного моря до исследования температуры и течений над узким южным калифорнийским шельфом.
  • Набор данных цифр языка жестов. Турция, Анкара, Айранджи, Анадолу. Набор данных о языке жестов средней школы.
  • Качество красного вина. Простой и понятный практический набор данных для регрессионного или классификационного моделирования.
  • Таблицы английской футбольной премьер-лиги (1968–2019 годы).
  • HotspotQA Dataset. Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
  • xView. Один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок.
  • Labelme. Большой датасет аннотированных изображений.
  • ImageNet. Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии.
  • LSUN. Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных.
  • MS COCO. Крупномасштабный датасет для обнаружения и сегментации объектов.
  • COIL100. 100 разных объектов, изображённых под каждым углом в круговом обороте.
  • Visual Genome. Датасет, где примерно 100 тысяч подробно аннотированных изображений.
  • Google’s Open Images. Коллекция из 9 млн URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.
  • Labelled Faces in the Wild. Набор из 13 тысяч размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.
  • Stanford Dogs Dataset. Содержит 20 580 изображений из 120 пород собак.
  • Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
  • Oxford’s Robotic Car. Более 100 повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ.
  • Cityscape Dataset. Большой датасет, содержащий записи 100 уличных сцен в 50 городах.
  • KUL Belgium Traffic Sign Dataset. Более 10 тысяч аннотаций тысяч разных светофоров в Бельгии.
  • LISA Laboratory for Intelligent & Safe Automobiles. Датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения.
  • Bosch Small Traffic Light Dataset. Датасет, где 24 тысячи аннотированных светофоров.
  • WPI datasets. Датасет для распознавания светофоров, пешеходов и дорожной разметки.
  • Berkeley DeepDrive. Огромный датасет для автопилотов. Он содержит более 100 тысяч видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях.
  • MIMIC-III. Датасет с обезличенными данными о состоянии здоровья примерно 40 тысяч пациентов, находящихся на интенсивной терапии (демографическими данными, показатели жизнедеятельности, лабораторными анализами и лекарствами).
  • Amazon Reviews. Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.

Полезные ссылки по поиску датасетов

  • Конечно, Kaggle — место встречи всех любителей соревнований по машинному обучению.
  • Google Dataset Search — поиск датасетов по всему интернету. Также при необходимости можно добавить свои наборы данных.
  • Machine Learning Repository — набор баз данных, теорий предметной области и генераторов данных, которые используются сообществом машинного обучения для эмпирического анализа алгоритмов машинного обучения.
  • VisualData — поиск датасетов для машинного зрения, есть удобная классификация по категориям.
  • DATA USA — полный набор по общедоступным данным США c визуализацией, описанием и инфографикой.

На этом наша короткая подборка подошла к концу. Если у кого-то есть, чем дополнить или поделиться — пишите в комментариях.

Всем знаний!

Подпишись на канал «Нейрон» в Telegram (@neurondata) ― там свежие статьи и новости из мира науки о данных появляются каждую неделю. Спасибо всем, кто помогает с полезными ссылками, особенно Игорю Мариарти, Андрею Бондаренко и Матвею Кочергину.

#датасет

Материал опубликован пользователем. Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать
{ "author_name": "Рушан Сюрмаков", "author_type": "self", "tags": ["\u0434\u0430\u0442\u0430\u0441\u0435\u0442"], "comments": 4, "likes": 30, "favorites": 74, "is_advertisement": false, "subsite_label": "dev", "id": 68180, "is_wide": false, "is_ugc": true, "date": "Mon, 20 May 2019 22:21:10 +0300" }
{ "id": 68180, "author_id": 217512, "diff_limit": 1000, "urls": {"diff":"\/comments\/68180\/get","add":"\/comments\/68180\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/68180"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 235819, "last_count_and_date": null }

4 комментария 4 комм.

Популярные

По порядку

2

Спасибо за подборку, полезно!))

Ответить
0

Круто. Вот бы ещё датасет по чатам , диалогам

Ответить
0

Жаль Microsoft удалили Tay. Это был бы прекрасный датасет.

Ответить
0

Скажите, а можно ли где-то найти наборы обезличенных геоданных с мобильных устройств?

Ответить
0
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ]
Хакеры смогли обойти двухфакторную
авторизацию с помощью уговоров
Подписаться на push-уведомления
{ "page_type": "default" }