100 датасетов для скачивания

Огромный набор датасетов, которые вы можете скачать и начать пользоваться прямо сейчас.

@bigdatai - еще больше открытых размеченных датасетов в нашем телеграм канале.

Mall Customers Dataset — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning)

Рост населения датасет

News Articles — содержит атрибуты новостной статьи.

Satellite Photograph Order — набор данных спутниковых фотографий Земли — цель состоит в том, чтобы предсказать, какие фотографии были сделаны раньше других.

Manufacturing Process Failures — набор переменных, которые были измерены в ходе производственного процесса. Цель состоит в том, чтобы предсказать сбои в производстве.

Multiple Choice Questions — набор данных из вопросов с множественным выбором и соответствующих правильных ответов. Цель состоит в том, чтобы предсказать ответ на любой заданный вопрос.

В Pokemon Dataset содержатся статистические данные по 721 покемону. Там указаны их тип, HP, атака, особая атака, особая защита и скорость. Вы можете поиграть с этими данными и провести поиск, чтобы, например, найти покемона с самыми высокими показателями атаки и защиты.

60k Stack Overflow Questions Этот набор данных содержит 60 тысяч вопросов на Stack Overflow с 2016 по 2020 год. Есть 3 типа вопросов: HQ (высококачественные сообщения без единой правки), LQ_EDIT (низкокачественные сообщения с отрицательной оценкой и несколькими правками сообщества) и LQ_CLOSE (низкокачественные сообщения, которые были закрыты сообществом без единой правки).

Если вы новичок в Pandas, настоятельно рекомендуем изучить основы работы с этим набором данных, просмотрев этот туториал.

В базе данных Netflix movies and TV shows собраны все фильмы и сериалы, доступные на Netflix на середину 2021 года. Здесь можно найти такие данные, как название, режиссер, рейтинг, год выпуска и продолжительность. Имеются недостающие данные, а некоторые столбцы нуждаются в очистке перед работой с ними в проекте.

Iris Dataset — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков.

MNIST Dataset — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений.

The Boston Housing Dataset — популярный датасет для распознавания паттернов. Содержит информацию о домах в Бостоне: количество квартир, стоимость аренды, индекс преступлений.

Fake News Detection Dataset — содержит 7796 записей с разметкой новостей: правда или ложь. (Вариант применения с исходником на Python: Fake News Detection Python Project )

Wine quality dataset — содержит информацию о вине: 4898 записей с 14 параметрами.

Email Spam — содержит электронные письма вместе с пометкой о том, являются ли они спамом или нет.

Wine Classification — содержит различные атрибуты 178 вин.

Solar Flares — атрибуты солнечных вспышек, полезные для прогнозирования характеристик вспышек.

SOCR data – Heights and Weights Dataset — хороший вариант для старта. Содержит 25 000 записей о росте и весе 18-ти летних людей.

Parkinson Dataset — 195 записей о пациентах с болезнью Паркинсона, с 25 параметрами анализов. Можно использовать для предварительной оценки отличия больных людей от здоровых. (Вариант применения с исходником на Python: Machine Learning Project on Detecting Parkinson’s Disease)

Titanic Dataset — содержит информацию про пассажиров (возраст, пол, родственники на борту и пр) 891 в тренировочном сете и 418 — в тестовом.

Uber Pickups Dataset — информация о 4.5 миллионах поездок на Uber 2014 года и 14 млн. 2015 года. (Вариант применения с исходником на R: Uber Data Analysis Project in R)

Chars74k Dataset — содержит изображения Британских и Канадских символов 64 классов: 0-9, A-Z, a-z. 7700 7.7k естественных изображений, 3400kнаписанных от руки, 62000 синтезированных компьютером шрифтов.

Credit Card Fraud Detection Dataset — содержит информацию о транзакциях скомпрометированных кредитных картах. (Вариант применения с исходником: Credit Card Fraud Detection Machine Learning Project)

Chatbot Intents Dataset — JSON-файл, который содержит различные тэги: greetings, goodbye, hospital_search, pharmacy_search, и тд. Содержит набор шаблонов «вопрос-ответ». (Вариант применения с исходником на Python: Chatbot Project in Python)

Enron Email Dataset — содержит пол миллиона писем от 150 менеджеров Enron.

The Yelp Dataset — содержит 1,2 млн. рекомендаций от 1,6 млн. пользователей про 1,2 млн организаций.

Jeopardy Dataset — более 200 000 записей «вопрос-ответ» из популярной телевизионной игры.

Recommender Systems Dataset — портал с коллекцией датасетов от университета UCSD. Содержит записи об отзывах на популярных сайтах (Goodreads, Amazon). Отлично подходит для создания рекомендательных систем. (Вариант применения с исходником на R: Movie Recommendation System Project in R )

UCI Spambase Dataset — датасет для тренировки для обнаружения спама. Содержит 4601 писем с 57 параметрами метаданных.

Flickr 30k Dataset — более 30 000 изображений и подписей к ним. (Flickr 8k Dataset — 8000 изображений. Проект с исходником на Python: Image Caption Generator Python Project)

IMDB reviews — 25 000 отзывов на фильмы в тренировочном наборе и 25 000 в тестовом. (Вариант применения с исходником на R: Sentiment Analysis Data Science Project)

MS COCO dataset — 1,5 млн размеченных изображений.

CIFAR-10 and CIFAR-100 dataset — CIFAR-10 содержит 60,000 маленьких изображений 32*32 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100.

GTSRB (German traffic sign recognition benchmark) Dataset — 50 000 изображений 43 дорожных знаков. (Вариант применения с исходником на Python: Traffic Signs Recognition Python Project)

ImageNet dataset — содержит более 100 000 фраз и около 1000 изображений на фразу.

Breast Histopathology Images Dataset — датасет содержит изображения образцов рака молочной железы. (Вариант применения с исходником на Breast Cancer Classification Python Project)

Cityscapes Dataset — содержит высококачественные аннотации видеопоследовательностей улиц разных городов.

Kinetics Dataset — содержит URL-ссылку на около 6,5 миллионов высококачественных видео.

All Reddit Sublessons — содержит все подзаголовки reddit до 2015 года.

Jeopardy Questions — вопросы и количество баллов из игрового шоу Jeopardy.

New York City Property Tax Data - данные о недвижимости и оценочной стоимости в Нью-Йорке.

Опросы молодых людей. Данные о предпочтениях, интересах, привычках, мнениях и страхах молодых людей.

Мировые рейтинги университетов. Исследуйте лучшие университеты мира.

Обнаружение мошенничества с кредитными картами. Датасет по анонимным транзакциям кредитных карт, помеченные как мошеннические или подлинные.

Датасет болезней сердца. База данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.

Европейская футбольная база. Больше 25 тысяч матчей, атрибуты игроков и команд для европейского профессионального футбола.

Винные обзоры. 130 тысяч винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.

Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и так далее.

Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.

Распознавание цветов. Набор данных содержит 4242 изображения цветов. Сбор данных основан на данных Flickr, изображениях Google и «Яндекса».

Ежедневная рыночная цена каждой криптовалюты. Исторические цены на криптовалюту для всех токенов.

Шоколадный рейтинг. Экспертный рейтинг более 1700 шоколадных батончиков.

Рынок медицинского страхования. Данные о планах в области здравоохранения и стоматологии на рынке медицинского страхования США.

Звуки сердцебиения. Классификация аномалий сердцебиения по стетоскопу.

База данных аниме рекомендаций. Рекомендации от 76 тысяч пользователей на myanimelist.net

Изображения клеток крови. 12 500 изображений: четыре разных типа клеток.

Рентгенография грудной клетки. Более 112 тысяч рентгенограмм грудной клетки от более чем 30 тысяч уникальных пациентов.

Отчеты об убийствах, 1980–2014 годы. Проект «Ответственность за убийства» — самая полная база данных об убийствах в Соединенных Штатах, доступных в настоящее время.

База данных подержанных автомобилей. Более 370 тысяч подержанных автомобилей. Содержание данных на немецком языке, поэтому нужно сначала перевести их, если вы не говорите на немецком.

Дом открытых данных правительства США. Данные, инструменты и ресурсы для проведения исследований, разработки веб-приложений и мобильных приложений, разработки визуализаций данных.

Национальный центр профилактики хронических заболеваний и укрепления здоровья (NCCDPHP). Центр работает над снижением факторов риска хронических заболеваний.

Крупнейший в Великобритании сборник социальных, экономических и демографических ресурсов.

EconData. Несколько тысяч экономических временных рядов, подготовленных рядом правительственных учреждений США и распространенных в различных форматах и СМИ.

Центр исследования побережья. Интересные данные о море и его биологическом составе. Здесь можно найти датасеты начиная с анализа данных модели Красного моря до исследования температуры и течений над узким южным калифорнийским шельфом.

Набор данных цифр языка жестов. Турция, Анкара, Айранджи, Анадолу. Набор данных о языке жестов средней школы.

Качество красного вина. Простой и понятный практический набор данных для регрессионного или классификационного моделирования.

MPII human pose dataset — датасет содержит 25 000 изображений человеческих поз с аннотацией по суставам.

20BN-something-something dataset v2 — набор высококачественных видео, которые показывают, как человек выполняет какие-то действия.

Object 365 Dataset — датасет высококачественных изображений с ограничивающими рамками объектов.

Photo sketching dataset — содержит более 1000 изображений с их контурными чертежами.

CQ500 Dataset — датасет содержит 491 КТ-сканирование головы с 193 317 срезами.

IMDB-Wiki dataset — датасет с более чем 5 млн. изображений лиц с пометкой пола и возраста. (Вариант применения с исходником на Gender & Age Detection Python Project)

Youtube 8M Dataset — маркированный набор данных видео, который содержит 6,1 миллиона идентификаторов видео Youtube

Food Environment Atlas — содержит данные о том, как выбор местных жителей влияет на рацион питания в США.

School System Finances— обзор финансов школьных систем в США.

Chronic Disease Data — данные о показателях хронических заболеваний в районах по всей территории США.

Urban Sound 8K dataset — набор городских звуковых данных (содержит 8732 городских звука из 10 классов).

LSUN Dataset — набор данных из миллионов цветных изображений сцен и объектов (около 59 миллионов изображений, 10 различных категорий сцен и 20 различных категорий объектов).

RAVDESS Dataset — аудиовизуальная база данных эмоциональной речи. (Вариант применения с исходником на Speech Emotion Recognition Python Project)

Librispeech Dataset — датасет содержит 1000 часов английской речи с разными акцентами.

Baidu Apolloscape Dataset — датасет для развития технологий самостоятельного вождения.

Quandl Data Portal — хранилище экономических и финансовых данных (есть бесплатный и платный контент).

The World Bank Open Data Portal — информация о займах, выданных Всемирным банком развивающимся странам.

IMF Data Portal — портал международного валютного фонда, который публикует данные о международных финансах, ставках долга, инвестициях, валютных резервах и товарах.

American Economic Association (AEA) Data Portal — ресурс для поиска макроэкономических данных США.

Google Trends Data Portal — данные о тенденциях Google можно использовать для визуального изучения и анализа данных.

Financial Times Market Data Portal — ресурс для получения актуальной информации о финансовых рынках со всего мира.

Data.gov Portal — портал открытых данных правительства США (сельское хозяйство, здравоохранение, климат, образование, энергетика, финансы, наука и исследования и т.д.).

Data Portal: Open government data (India) — открытая правительственная платформа данных Индии.

Food environment Atlas Data Portal — содержит данные исследований о питании в США.

Health Data Portal — это портал Министерства здравоохранения и социальных служб США.

Centers for Disease Control and Prevention Data Portal — содержит широкий спектр данных, связанных со здоровьем.

London Datastore Portal — данные о жизни людей в Лондоне.

Canada Government Open Data Portal — портал открытых данных о канадцах (сельское хозяйство, искусство, музыка, образование, правительство, здравоохранение и т.д.)

uproger.com

Датасеты в открытом доступе