По стопам моей первой подборки датасетов для машинного обучения сделаю ещё одну — подборку относительно свежих датасетов с рабочими примерами по обработке данных.Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных. Схема работы с этим постом такая же, как с моим предыдущим про лучшие блокноты по ML и DS, а именно: сохранил в закладки → передал коллеге.Также бонусом в конце статьи — крутой курс от ФПМИ МФТИ.Итак, давайте приступим.Подборка датасетов с рабочими примерами обработки данныхSuicide Rates Overview 1985 to 2016Сравнение социально-экономической информации с показателями самоубийств по годам и странам.Примеры обработки:Suicide data — Full interactive dashboard.Mental Health, Happiness, Economics, Human Freedom.Data Visualization of Suicide Rates.Spotify's Worldwide Daily Song RankingЕжедневный рейтинг 200 самых прослушиваемых песен пользователями Spotify в 53 странах — с 2017 года по 2018 год. Пример обработки:Top Songs on Spotify: What makes them popular.Spotify Chart Trend + Seasonal ARIMA.Trends in Spotify's Worldwide Daily Songs 17–18.Crimes in BostonЗаписи из Бостонской системы отчетов о происшествиях с преступностью, включающая в себя происшествия и информацию о том, когда и где оно произошло.Пример обработки:Boston crimes starter EDA.Boston Crime Reports.transfer learning and ImageDataGenerator.Google Play Store AppsКатегории, рейтинги, размер всех приложений Google Play.Пример обработки:All that you need to know about the Android market.How to get «High» Rating on Play Store.Google Play Store EDA.Pokémon for Data Mining and Machine LearningСтатистика и особенности покемонов.Пример обработки:Pokemon Data Clustering.Pokemon Types and Stats ggplot2 Visualisations.Pokemon data analysing.A Million News Headlines Данные заголовков новостей, опубликованных за последние 15 лет.Пример обработки:What is with News headlines.Meaningful Random Headlines by Markov Chain.Topic Modelling with LSA and LDA.Airplane Crashes Since 1908Полная история авиакатастроф по всему миру — с 1908 года по настоящее время.Пример обработки:«Who not to fly with...».Airplane Crashes [Data Visualization].Chinese Zodiac and Aircraft Deaths.News Headlines Dataset For Sarcasm DetectionВысококачественный набор данных для задачи обнаружения сарказма.Пример обработки:Detecting Sarcasm Using Different Embeddings.Sarcasm with Keras.Beginners's guide to NLP using spaCy.Historical Air QualityДанные о качестве воздуха, собранные на наружных мониторах по всей территории США.Пример обработки:Air Pollution 101.Let's analyze our Air that we take.What these weather data will tell us.Nutrition Facts for McDonald's MenuАнализ питания каждого пункта меню в McDonald's США.Пример обработки:Super Sized We.Calories we eat...in Mcdonald's.McDonald's Menu.Lego DatabaseДетали, комплекты, цвета и запасы каждого официального набора Lego в базе данных Rebrickable.Пример обработки:Lego — Let's play.Finding Lego color themes with topic models.Have LEGO sets been getting bigger over time.Global Commodity Trade StatisticsОбъёмы импорта и экспорта для 5000 товаров в большинстве стран мира за последние 30 лет.Пример обработки:Overall Global Trading Statistics.Trade Statistics.Sheeps vs Goats.Crime in IndiaПолная информация о различных аспектах преступлений, совершенных в Индии с 2001 года.Пример обработки:Crime Analysis in India.Crime Data EDA.Exploratory — Top States & Districts.Predicting a Pulsar StarДанные по пульсарам, собранные во время обзора Вселенной.Примеры обработки:Predicting pulsar star in the universe.Prediciting A Pulsar Star.Pulsar Star Classification.French employment, salaries, population per townДанные, показывающие равенство и неравенство во Франции.Пример обработки:Using Regression to Predicting Earnings in France.Interactive Map & Graph — job & salary inequality.How big is French Industry.United States CensusДанные переписи в США.Пример обработки:How to Query the USA Census Dataset.United States Campsites.Fork of United States Campsites.California Housing PricesЦены на жилье в Калифорнии.Пример обработки:Introduction to machine learning in R (tutorial).Gradient Boosting and Parameter Tuning in R.Geospatial Feature Engineering and Visualization.US Unemployment Rate by County, 1990–2016Данные по безработице министерства труда США.Пример обработки:Maps are beautiful, Unemployment is not.Analysis of world crime.Time Series Analysis on US Unemployment Rate.World of Warcraft Avatar HistoryНабор записей, которые детализируют информацию о персонажах игрока в игре с течением времени. Пример обработки:A World of Warcraft.Wow Dataset — Exploratory Analysis.General EDA and a Movement network chart.The Gravitational Waves Discovery DataДанные о событиях гравитационных волн GW150914.Пример обработки:Dataload.Read HDF5 from Julia.Plot the Data.БонусА бонусом у нас сегодня будет прекрасный курс по Deep Learning, рассчитанный на старшеклассников, интересующихся программированием и математикой, а также студентов, которые хотят начать заниматься глубоким обучением.Цель курса — познакомить с основными принципами глубокого обучения (нейронных сетей) в интерактивном формате и на примере практических задач.Программа курсаPython: основы, Google Colab.Введение в линейную алгебру. Векторы. Матрицы и операции с ними. Библиотека NumPy.Библиотеки Pandas и MatPlotlib. Основы машинного обучения.Элементы теории оптимизации. Градиент. Градиентный спуск. Линейные модели.Введение в глубокое обучение. Перцептрон. Нейрон с сигмоидой (и другими функциями активации). Основы ООП в Python.Библиотека PyTorch. Многослойные нейросети.Обучение нейронных сетей на практике. Cifar10, notMNIST.Сверточные нейросети. Сверточный слой. Пулинг слой.Практика обучения нейросетей. Классификация дорожных знаков.Transfer Дearning. Популярные в Computer Vision архитектуры.Сегментация картинок. U-Net.Участие в соревнованиях на Kaggle.Object Detection. YOLOv3.Классический GAN. Нейронный перенос стиля.Базовые методы обработки текста.Word Embeddings.Рекуррентные нейронные сети.LSTM, GRU ячейки.Языковые модели.Машинный перевод.Text2Speech.SuperResolution.Также вы можете заглянуть на YouTube-канал Deep Learning School. Там много отличных видео ;)На этом наша короткая подборка примеров обработки данных подошла к концу. Надеюсь, вы узнали для себя что-нибудь новое. Как принято на vc.ru, понравился пост — поставь плюс и не забудь поделиться с коллегами. Также, если у вас есть то, чем вы можете поделиться сами, — пишите в комментариях. Больше информации о машинном обучении и Data Science здесь. Всем знаний!
0 комментов и десятки закладок это видимо "нихрена не понял, но должно пригодиться"
(оставил мудрый комментарий с умным видом)
Не скрою- глубоко не вдавался в статью, но все же возник вопрос: для чего она вообще? Не то чтобы я критикую автора, но я реально не врубился о чем она, тут же просто сайты со статистикой?
Эту статью нужно скормить AI, чтобы он выявил закономерности в этом датасете датасетов. Вручную такое никто не читает, не парься.
Курсы в школе [https://www.dlschool.org/] бесплатные? Всех берете или жесткий отбор?