{"id":13846,"url":"\/distributions\/13846\/click?bit=1&hash=e55e48eddda4bc21e41e05a579a7c4f6ff93370a18f4e2b72bfdc3218ac40104","title":"\u0412\u0435\u043d\u0447\u0443\u0440\u043d\u044b\u0439 \u0438\u043d\u0432\u0435\u0441\u0442\u043e\u0440 \u043e\u0431 \u0430\u043a\u0442\u0443\u0430\u043b\u044c\u043d\u044b\u0445 \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0430\u0445 \u0444\u0430\u0443\u043d\u0434\u0435\u0440\u043e\u0432 \u0438 \u0438\u043d\u0432\u0435\u0441\u0442\u043e\u0440\u043e\u0432","buttonText":"","imageUuid":"","isPaidAndBannersEnabled":false}

Google Dataset Search вышел из бета-версии

Новый инструмент поиска датасетов Google Dataset Search вышел из бета-версии. За полтора года удалось проиндексировать 25 млн наборов данных, большая часть из которых поступает из государственных учреждений разных стран и Kaggle, крупнейшего сообщества исследователей данных и ИИ.

Набор данных или датасет (dataset) — это структурированная коллекция данных (необработанные или обработанные, в виде текста, чисел или мультимедиа).

Поиск представлен в виде каталога с ссылками на платные и бесплатные датасеты с графической или тестовой информацией по разным темам — домашние питомцы, медицинские данные и так далее.

Демократизация доступа к наборам данных предоставит возможность исследователям проверять гипотезы и использовать для алгоритмов машинного обучения.

Мы решили потестить, что полезного можно найти в Google Dataset Search и пригодны ли датасеты для использования в Polymatica. Сразу напомним — это всего лишь каталог, и качество датасетов гарантирует их источник.

Поисковое окно каталога выглядит аскетично и даже предлагает вам ссылку на инструкцию, как загрузить свой личный датасет в поисковик.

Что мы стали искать? Конечно, котиков! Мы решили узнать, в каком районе Нью-Йорка живет самое большое количество зарегистрированных домашних пушистиков. Google предложил нам 26 датасетов.

Для теста мы выбрали первый бесплатный датасет, который можно было экспортировать в формате Excel — это оказался свежий набор данных Департамента охраны окружающей среды (DEP) на сайте открытых данных государственных органов Нью-Йорка.

Мы загрузили датасет в платформу обработки big data — Polymatica и сегментировали данные по районам. В Манхеттене оказалось самое большое количество зарегистрированных котов! Такое сегментирование будет полезно для таргетирования рекламы производителей корма премиум-класса, ветеринарных услуг и кетситтеров.

Всем хороших датасетов!

0
Комментарии
Читать все 0 комментариев
null