20+ популярных опенсорсных датасетов для Computer Vision

ИИ в первую очередь развивается благодаря данным, а не коду.

Это смелое заявление несколько лет назад могло показаться нелепым, но сегодня это не так. Однако, по-прежнему существует одна проблема: высокого качества данных обучения достичь иногда очень сложно. На поиск подходящего для задач компьютерного зрения массива данных могут потребоваться дни или недели.

Но не стоит волноваться, в этой статье мы составили исчерпывающий список качественных массивов данных для компьютерного зрения в свободном доступе.

Это оригинальный массив данных V7, содержащий 6,5 тысяч рентгенографических снимков грудной клетки в переднезадней и заднепередней проекции с попиксельной сегментацией лёгких многоугольниками. Среди этих снимков есть 517 случаев COVID-19.

Каждый снимок содержит следующие данные:

• Две маски сегментации «Лёгкое»

• Метка типа пневмонии (вирусная, бактериальная, грибковая, здоровое лёгкое/пневмония отсутствует)

• Если у пациента есть COVID-19, есть дополнительные метки с указанием возраста, пола, температуры, локализации, состояния интубации, поступления в реанимационное отделение и результатов лечения.

Аннотации лёгких — это многоугольники с попиксельно-точными границами. Их можно экспортировать в форматы COCO, VOC и Darwin JSON. Каждый файл аннотации содержит URL исходного снимка в полном разрешении и миниатюры.

Подробнее см. здесь: COVID-19 X-Ray dataset (Github).

CIFAR-10 и CIFAR-100 — это размеченные подмножества массива данных из 80 миллионов небольших изображений, собранного Алексом Крижевским, Винодом Наиром и Джеффри Хинтоном.

CIFAR-10 содержит 60 тысяч цветных изображений размером 32x32 с 10 классами (животные и объекты реального мира). Каждый класс состоит из 6000 изображений. Этот массив данных содержит 50000 обучающих изображений и 10000 тестовых изображений. Классы взаимно исключают друг друга и между ними нет пересечений.

CIFAR-100 состоит из 100 классов по 600 изображений каждый. В каждом классе есть 500 обучающих изображений и 100 тестовых.

ImageNet — одна из самых популярных баз данных изображений с более чем 14 миллионов размеченных вручную изображений.

Эта база данных упорядочена в соответствии с иерархией WordNet (в настоящее время в ней содержатся только существительные), каждый узел иерархии представляют сотни или тысячи изображений. В качестве аннотаций на уровне объектов использованы ограничивающие прямоугольники вокруг объекта или его видимой части.

Это большой массив видео, состоящий из 650 тысяч клипов, описывающих 700 классов человеческих действий.

В видео включены такие взаимодействия «человек-предмет», как игра на музыкальных инструментах, и такие взаимодействия «человек-человек», как объятия. Каждый класс действий содержит не менее 700 видеоклипов, а каждый клип аннотирован классом действия, длящимся более 10 секунд.

Это большая база данных отдельных рукописных цифр, содержащая 60000 обучающих изображений и 10000 тестовых изображений.

Она была выпущена в 1999 году, используется для задач классификации.

LSUN (Large-scale Scene Understanding) содержит почти миллион размеченных изображений для каждой из 10 категорий сцен и 20 категорий объектов.

В качестве данных обучения каждая категория содержит от 120 тысяч до 300 миллионов изображений. Данные валидации для каждой категории содержат 300 изображений, а тестовые данные — 1000 изображений.

Один из крупнейших публично доступных массивов данных человеческих лиц с гендером, возрастом и именем.

Суммарно он содержит 523051 изображений, 460723 лица представляют собой фотографии 20284 знаменитостей с IMDb и 62328 знаменитостей с Википедии.

Массив данных MS COCO (Microsoft Common Objects in Context) состоит из 328 тысяч изображений. В нём содержатся аннотации для распознавания объектов, распознавания ключевых точек, паноптической сегментации, субтитров и определения поз человека Dense.

Это крупная база данных из 13 тысяч фотографий лиц, предназначенная для задач распознавания лиц. Каждое лицо размечено именем человека.

Cityscapes — это база данных, содержащая разнообразный набор стереографических видеоклипов, записанных на улицах пятидесяти городов. Клипы снимались в течение длительного времени при различном освещении и погодных условиях.

Cityscapes содержит семантическую сегментацию экземпляров объектов с попиксельной точностью для 30 классов, разделённых на 8 категорий. Он обеспечивает попиксельные аннотации 5000 кадров и приблизительные аннотации 20000 кадров.

Этот массив данных содержит 50000 изображений JPEG (40000 для обучения и 10000 для тестирования) с 12 классами.

Классы содержат такие объекты, как автомобиль, человек, дерево или клавиатура. На 50% изображений массивов для обучения и тестирования содержится центрированный объект, а на 50% оставшихся — случайно выбранная область случайно выбранного изображения («clutter»).

Этот массив данных можно использовать для распознавания объектов.

Массив данных Places состоит из 2,5 миллионов изображений (с метками категорий) и 205 категорий сцен. В каждой категории содержится более 5 тысяч изображений. Массив cоздан при помощи CNN и может использоваться для задач распознавания сцен.

Ещё один массив данных, предоставленный MIT, в нём 1,8 миллиона изображений, разделённых на 365 категорий сцен. В наборе для валидации содержится по 50 изображений на категорию, а в тестовом наборе — 900. Базу данных Places2 можно использовать для визуального распознавания сцен и глубоких признаков сцен.

Большой массив данных и база знаний из 108077 изображений с аннотированными объектами, атрибутами и их взаимосвязями.

Этот массив данных создан на основе изображений и аннотаций (меток классов, ограничивающих прямоугольников) из ImageNet. Это крупномасштабный массив данных, содержащий изображения 120 пород собак со всего света. Он состоит из 20580 изображений и 120 категорий.

Этот массив содержит 16185 изображений и 196 классов автомобилей. Данные разделены на 8144 обучающих изображений и 8041 тестовое изображение, а каждый класс разделён примерно пополам.

Изображения, метки классов и ограничивающие прямоугольники нужно скачивать по отдельности.

Массив данных CAT содержит более девяти тысяч изображений кошек с аннотированными признаками морд. Головы кошек аннотированы девятью точками для каждого изображения: две для глаз, одна для рта и шесть для ушей.

CelebFaces Attributes Dataset (CelebA) — это крупномасштабный массив данных атрибутов лиц из более чем 200 тысяч изображений знаменитостей, каждое из которых имеет по 40 аннотаций атрибутов. В аннотации включено 10177 уникальных людей и пять местоположений на одно изображение.

Этот массив данных можно использовать как набор для обучения и тестирования распознавания лиц, распознавания и локализации атрибутов лиц, а также локализации местоположений (или частей лиц).

Этот массив данных содержит 853 изображения, относящихся к трём классам, и их ограничивающие прямоугольники в формате PASCAL VOC. Изображения разделены на классы «без маски», «в маске» и «неправильно надетая маска».

Это массив данных из более семи тысяч уникальных изображений в разрешении HD.

Он состоит из фотографий начинающихся пожаров и дыма, снятых мобильными телефонами в реальных ситуациях. Снимки сделаны в широком диапазоне освещения и погодных условий. Этот массив данных можно использовать для распознавания и обнаружения огня и дыма, а также распознавания аномалий.

Также он содержит различные домашние сцены, в том числе горение мусора и посевов на полях, а также кадры домашней готовки и т. п.

Этот массив состоит из изображений высокого разрешения, сделанных с беспилотных дронов. Изображения содержат подробные семантические аннотации повреждений, вызванных ураганами.

Данные были собраны при помощи небольшой платформы дронов, квадракоптеров DJI Mavic Pro, после урагана Харви. Весь массив данных содержит 2343 изображения, разделённых на наборы для обучения (примерно 60%), валидации (примерно 20%) и тестирования (примерно 20%).

Автор оригинала: Alberto Rizzoli

#разметкаданных #перевод #datalabeling #computervision #машинноеобучение #dataannotation #dataset #TrainingData #датасет

20+ популярных опенсорсных датасетов для Computer Vision

COVID-19 X-Ray Dataset (V7)

CIFAR-10 и CIFAR-100

ImageNet

Kinetics-700

MNIST

LSUN

IMDB-Wiki

MS COCO

Labeled Faces in the Wild

Cityscapes

LabelMe-12-50k

Places

Places2 (365-Standard)

VisualGenome

Stanford Dogs

Stanford Cars

Cat Dataset

CelebFaces

Face Mask Detection

Fire and Smoke Dataset

FloodNet Dataset