7 бесплатных ресурсов с датасетами для учебы и работы

Датасеты могут быть полезны не только программистам, но и аналитикам, ученым и маркетологам. Структурированные массивы можно использовать, чтобы на основе данных строить гипотезы, обучать нейросети или проводить исследования. В статье собрали семь бесплатных ресурсов, где можно найти интересные датасеты для учебы и работы.

Кадр из фильма «Пятая власть» реж. Билл Кондон

Основным агрегатором для поиска датасетов является Google Dataset Search. В нем можно ввести запрос по ключевому слову, и сервис выдаст множество массивов по заданной теме. Например, если вбить в поисковике «качество воды» или «water quality», платформа предложит датасеты, в которых собраны данные по исследованиям качества питьевой воды в России, Канаде, Индии и других странах по всему миру. Поисковик удобен тем, что в нем собраны все бесплатные датасеты, которые есть в открытом доступе.

Шагане Мирзоян, Senior-аналитик в Wise и спикер курса «Data Scientist с нуля до Junior» в Skillbox:

«Для того чтобы попрактиковаться в инструментах, я часто использую built-in-датасеты из разных библиотек. Например, при работе с Plotly я использовала данные по ценам акций компаний, численности населения определенных стран и количества медалей на Олимпийских играх. Подобная практика на разных датасетах позволяет создавать интерактивные и содержательные визуализации. А это значительно сокращает ручную работу и экономит время»

2. Kaggle

Это платформа для машинного обучения, где можно найти единомышленников и множество массивов данных. Здесь собраны датасеты по различным темам, включая здравоохранение, финансы и образование. Более того, на платформе можно писать свои и разбирать чужие прогнозные модели, участвовать в соревнованиях и общаться с другими пользователями. Многие компании, нанимая на работу дата-специалистов, обращают внимание на место кандидатов в рейтинге Kaggle.

Екатерина Пан, глава отдела Аналитики в Сбермаркете и спикер курса «Data Scientist с нуля до Junior» в Skillbox:

«Преимущества использования Kaggle заключаются в том, что он содержит наборы данных практически из всех доменов. То есть вы можете найти количество ядер, относящихся к каждому набору данных. На платформе очень много вариаций, которые поделены на типы — например для визуализации или DS. Есть возможность посмотреть, что делали другие люди с теми же датасетами, а еще поучаствовать в конкурсах, которые часто ценятся при устройстве на работу»

Основная функция Open Data Network — предоставить пользователям доступ к большому количеству открытых данных, которые могут быть использованы для дальнейших исследований. Например, ученые-биологи, которые изучают заболевания животных, могут вбить в поисковике запрос «research» и получить сводные данные по исследованиям оспы обезьян и других млекопитающих. Более того, помимо доступа к датасетам платформа также предоставляет инструменты для визуализации данных и создания аналитических отчетов.

Антон Смирнов, эксперт в сферах BI-аналитики и хранилищ данных, спикер курса «Профессия BI-аналитик» в Skillbox:

«Мне интересно работать с обезличенными данными, где есть таблицы, которые позволяют произвести полноценный анализ всех слоев работы с данными в Power BI: Power Query, DAX, настройка связей и визуализация. Так, за 12 лет работы в индустрии я внедрил BI-решения для Softline, „Татнефти«, Банка „Зенит“, „Донстроя», Webinar и других компаний»

Это крупнейший репозиторий (хранилище) датасетов для машинного обучения. Особенностью UCI является то, что все данные предоставляются самими пользователями. Один из интересных датасетов, которые можно найти на платформе, это проект JARtool, который собрал данные по всем вулканам на поверхности Венеры. Информацию собирали с помощью космического корабля «Магеллан» в течение четырехлетнего периода с 1990 по 1994 год. Благодаря этому исследованию ученые удаленно составили подробную карту Венеры. На платформе также есть множество инструментов для анализа данных и создания моделей машинного обучения.

Это глобальная организация, которая занимается финансированием и кредитованием развивающихся стран и социальных проектов. Платформа собирает данные по уровню образования, экономики, здравоохранения и демографии по всему миру. Например, датасет Educational Statistic содержит более 4000 сопоставимых на международном уровне показателей, которые оценивают доступность образования, актуальность учебных программ, грамотность населения в разных странах и расходы государств на эту сферу. Открытые данные Всемирного банка можно использовать для исследований государственных и частных организаций по всему миру.

6. Quandl

Это платформа для поиска экономических датасетов. Сервис предлагает доступ более чем к 20 миллионам массивов, включая данные по акциям, валютам, товарным рынкам и индексам. Большинство данных на Quandl предоставляются бесплатно, но также есть возможность приобрести премиум-данные с дополнительными функциями и инструментами анализа. Например, на платформе можно найти массив Mergent Global Fundamentals, который содержит данные по прибыли и коэффициентам более 15 000 компаний в 67 странах, включенных в глобальный индекс Russel. Датасет позволяет проанализировать финансовые модели бизнесов и прогнозировать предложение на товарном рынке.

Одной из особенностей data. world является то, что платформа предоставляет инструменты для совместной работы с данными. Пользователи могут в командах работать над проектами, обмениваться идеями и ресурсами. На сервисе есть инструменты, облегчающие работу: например, можно писать SQL-запросы в интерфейсе для изучения данных и объединения нескольких датасетов. Пользователи могут загружать данные в различных форматах, включая CSV, Excel и JSON.

Работа с датасетами позволяет специалистам принимать более обоснованные решения, оптимизировать бизнес-процессы и улучшать качество жизни людей. С помощью этой подборки открытых платформ с датасетами вы можете анализировать массивы данных со всего мира, интегрировать их в учебные и рабочие проекты.

0
4 комментария
Саша

прикольная подборка, может правда будет больше интересных и полезных исследований. а не в стиле британских ученых, которые ждут смерть человечества через миллионы лет))

https://ria.ru/20230928/vymiranie-1899086728.html

Ответить
Развернуть ветку
Варвара Орлова
Ответить
Развернуть ветку
Дмитрий Ахмедов

Оооо датасет с вулканами Венеры топчик

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
TigrAn

испробую ваши рекомендации на деле

Ответить
Развернуть ветку
1 комментарий
Раскрывать всегда