15 проектов для развития навыков работы с машинным обучением

Рубрика #чтопочитать и материал для совершенствования навыков в области машинного обучения.

В данной статье мы рассмотрим 15 наборов данных и идей их реализации в различных проектах, которые помогут вам эффективно развить свои навыки машинного обучения. Для большинства проектов, связанных с машинным обучением или наукой о данных, создание датасета является тяжелой задачей, а для обучения точных моделей требуется огромное количество данных. Но не волнуйтесь - многие исследователи, организации и отдельные люди публично делятся своими наблюдениями, и мы можем использовать их в своих целях. Для реализации данных проектов мы можем использовать любой язык программирования, например, Python или R. Навык работы с машинным обучением и искусственным интеллектом развить не легко, ведь изначально тяжело найти хороший подход к изучению данной сферы, но это исключительно важно. Цель специалистов по науке о данных - сделать из данных важные выводы, которые помогут бизнесу расти.

Данный проект очень полезен при применении NLP (Natural Language Processing) для выявления фальшивых новостей, то есть, поддельной информации из недостоверных источников. Основой этого проекта является идея о том, что формулировка фейковых новостей отличается от настоящих, и модель машинного обучения может заметить эти отличия. Такую модель можно обучить, используя пассивно-агрессивный алгоритм классификации, который может классифицировать большие потоки данных, а его имплементация не займет много времени.

Ссылка на набор данных: Fake news Dataset

Это, пожалуй, самый известный набор данных, когда дело доходит до распознавания шаблонов. Всего он включает в себя три вида ирисов (Iris Setosa, Iris Versicolour, Iris Virginica) по 50 примеров для каждого, с различными типами лепестков и чашелистиков. Один из видов линейно отделим от остальных двух, в то время как остальные два вида линейно неразделимы друг от друга. Для этого набора данных стоит использовать регрессионную или классификационную модель. Классификация — это процесс распределения предметов в соответствующие классы.

Ссылка на набор данных: Iris Dataset

Этот датасет можно использовать для обучения алгоритма классификации, который в последующем сможет распознавать рукописные цифры.

Ссылка на набор данных: MNIST

Этот набор данных часто используется в распознавании шаблонов. Он содержит информацию о различных местах жительства в Бостоне, включая уровень преступности, налоги, количество комнат и т.д. Всего в нём 506 записей и 14 параметров. Вы можете использовать этот набор данных для прогнозирования цены нового места жительства, используя линейную регрессию. Линейная регрессия используется для вычисления неизвестного значения, в случае если оно линейно взаимосвязанно с уже имеющимися значениями.

Ссылка на набор данных: Housing Prices Dataset

15 апреля 1912 года Титаник потонул и унес жизни 1502 из 2224 пассажиров. Представленный ниже набор данных содержит информацию о пассажирах, включая имя, возраст, пол и т.д. 891 пассажир относятся к набору обучения и 418 к набору тестирования. Используя данный датасет и линейную регрессию, можно обучить модель, прогнозирующую, выжил бы человек на Титанике или нет.

Ссылка на набор данных: Titanic Dataset

Этот набор данных содержит транзакции, совершенные с банковских карт и помеченные как мошеннические или подлинные. На основе этого набора можно обучить модель, которая сможет замечать мошеннические действия, что очень важно для компаний, использующих транзакционные системы. Попробуйте использовать различные алгоритмы, например, ансамбль методов, логистическую регрессию и нейронные сети для определения лучшего из них.

Ссылка на набор данных: Credit Card Fraud Dataset

Данные твиты собираются с использованием Twitter API и Python скрипта. Сбор твитов, содержащих хэштег #covid19 , происходит каждый день в течении определенного периода времени, что приводит к большому количеству собранных постов. Вы можете использовать эти данные для изучения различных тем, связанных с COVID-19, определения географического распределения постов, оценки различных мнений и взглядов.

Ссылка на набор данных: COVID 19 Tweets Dataset

Приведенный набор данных содержит информацию об индийских школах за 2013-2014 и 2015-2016 учебные года. Благодаря ему, начинающие ученые по данным могут сразу начать работать с данными, ведь он собирает в одном месте всю изначально разрозненную информацию от индийского правительства. Полезно это будет как просто новичкам, так и людям, которым интересно узнать, как образование в Индии развивается с течением времени. Начать свое исследование вы можете с ответов на следующие вопросы:

В каких штатах наиболее высок процент людей, бросивших школу?
Имеют ли ученики доступ к достаточному количеству питьевой воды и туалетам?
Насколько высока совокупная доля учащихся на различных ступенях образования?
На каких ступенях образования меньше уровень зачисления? Растет ли он или убывает?

Ссылка на набор данных: Education Statistics Dataset

Этот набор данных содержит информацию об уровне загрязнения воздуха в Сеуле, столице Республики Корея. Он включает в себя средние значения шести химических элементов (SO2, NO2, CO, O3, PM10, PM2.5).

Измерения проводились каждый час с 2017 по 2019 года.
Измерения проводились в 25 районах Сеула.

Этот набор данных разделен на четыре файла:

1. Измерения уровня загрязнения.
2. Информация об измеряемых химических элементах.
3. Информация о станциях, проводящих измерения.
4. Обобщение результатов.

Ссылка на набор данных: Air Pollution Dataset

Вам когда-нибудь было интересно узнать, в какое время наиболее выгодно забронировать номер в отеле? Или какова оптимальная продолжительность пребывания? Что если вы хотите спрогнозировать, получит ли отель необычайно большое количество бронирований?

Данный датасет поможет вам ответить на все эти вопросы!

Он содержит информацию о бронированиях в двух отелях - городском и курортном, включая даты бронирований, продолжительность пребывания, количество взрослых и детей, количество парковочных мест.

Этот набор данных идеально подойдет тем, кто хочет попрактиковаться с разведочным анализом данных или научиться строить предиктивные модели.

Ссылка на набор данных: Hotel Booking Demand Datasets

Коронавирусом в Южной Корее заражены уже более 10000 человек. Корейский центр контроля и профилактики заболеваний (KCDC) открыто публикует собранную информацию. Приведенный ниже набор данных организует всю информацию из докладов KCDC и местных правительств. Ученые по данным анализируют и визуализируют эти данные, используя различные техники визуализации и data mining.

Ссылка на набор данных: Data Science for COVID-19

Приведенные файлы содержат метаданные 45000 фильмов, входящих в полный датасет MovieLens и выпущенных в июле 2017 года или раньше. Набор данных включает в себя такие параметры, как список актеров, съёмочную группу, ключевые слова сюжета, бюджет, доход, афиши, дату выпуска, языки, компанию-производителя, оценки и средние значения оценок TMDb.

Данный датасет можно использовать по-разному:

Прогнозирование дохода фильма или его успешности на основе некоторых метрик.
Определение фильмов, которые получили более высокие оценки и средние значения оценок на TMDb.
Создание рекомендательных систем на основе фильтрации по содержанию и коллаборативной фильтрации.

Ссылка на набор данных: The Movies Dataset

Ориентироваться в постоянно меняющейся мобильной ситуации тяжело. Процент использования мобильных устройств по сравнению с компьютерами продолжает расти. Android охватывает примерно 53,2% рынка мобильных приложений, Apple - 43%. Приведенные в датасете данные были собраны с помощью iTunes Search API на сайте Apple.

1. Попробуйте ответить на вопрос: Какое влияние имеют элементы приложения на его рейтинг?
2. Попробуйте сравнить статистику приложений из разных групп.

Ссылка на набор данных: Mobile App Store Dataset

"Прогнозируйте поведение, чтобы удерживать клиентов. Проанализировав все релевантные данные о клиентах, можно разработать целевую программу удержания клиентов".

Этот набор данных содержит следующую информацию:

Отток клиентов за последний месяц.
Услуги, на которые подписался каждый клиент: мобильная связь, интернет, интернет-безопасность, резервное копирование в облаке, защита устройства, техподдержка, телевидение и фильмы.
Информация об аккаунте клиента: продолжительность существования аккаунта, способ оплаты, информация о предоставлении чеков, месячная плата и общая сумма оплат.
Демографическая информация: пол, возрастные рамки, наличие партнеров и детей.

Ссылка на набор данных: Telco Customer Churn

Этот набор данных содержит совокупную индивидуальную статистику за 67 сезонов NBA. От простых значений, таких как количество очков, ассистов и подборов, до более сложных, например, Value Over Replacement.

Так как моей целью в данном проекте было прогнозирование уровня игры баскетболиста на основе его прошлых игр, а также его физических характеристик, я сначала хотел узнать ответы на приведенные выше вопросы перед обучением строгой модели.

Ссылка на набор данных: NBA Players stats since 1950 Dataset

В итоге, данные проекты позволят вам быстро развить ваши прикладные навыки машинного обучения, при этом изучая интересные темы. Вы сможете узнать какие есть преимущества и ограничения у различных алгоритмов. Работа над данными проектами покажет, какие трудности и риски ученые по данным могут встретить при выборе стратегии, основанной на данных.

Надеюсь, наши идеи для проектов были для вас полезны.

#машинноеобучение #ml

Оригинальная статья

15 проектов для развития навыков работы с машинным обучением

1. Обнаружение фейковых новостей

2. Ирисы Фишера

3. Набор данных MNIST

4. Цены на места жительства

5. Пассажиры Титаника

6. Обнаружение мошенничества с кредитными картами

7. Твиты о COVID-19

8. Статистика образования в школах Индии

9. Загрязнение воздуха в Сеуле

10. Спрос на номера в отелях

11. Данные о COVID-19 в Корее

12. Набор данных о фильмах

13. Mobile App Store

14. Отток клиентов компании Telco

15. Статистика игроков NBA с 1950 года.

Заключение