Лучшие задачи на Kaggle для получения первого опыта в Data Science

В этой статье предлагается список из 10 задач Kaggle, которые, может быть полезно решить, чтобы начать свой карьерный путь в ML.

1. Титаник: машинное обучение на примере катастроф — Это одна из самых популярных задач на Kaggle. Она представляет собой задачу бинарной классификации, в которой необходимо определить, выживет ли пассажир на корабле «Титаник» или нет. Эта задача хорошо подходит для новичков, так как не требует много предварительной обработки данных. Навыки, которые можно получить, включают в себя: работу с бинарной классификацией, обработку данных, выбор моделей, регуляризацию.

Ссылка на задачу : https://www.kaggle.com/c/titanic

2. Цены на жилье: продвинутые методы регрессии — Эта задача посвящена предсказанию цен на недвижимость в Айове. Это хороший выбор для тех, кто хочет попрактиковаться в регрессии и предварительной обработке данных. Навыки, которые можно получить, включают в себя: работу с регрессией, обработку данных, отбор признаков, выбор моделей, обнаружение красоты.

Ссылка на задачу: https://www.kaggle.com/c/house-prices-advanced-reгрессия-techniques

3. Распознаватель цифр . В этой задаче необходимо классифицировать изображения рукописных цифр. Использован датасет MNIST. Эта задача хорошо подходит для тех, кто хочет практиковаться в категории изображений. Навыки, которые можно получить, включают в себя: работу с классификацией изображений, обработку данных изображений, увеличение данных, выбор модели.

Ссылка на задачу: https://www.kaggle.com/c/digit-recouncer

4. Идентификация породы собак – это задача классификации изображений, в которой необходимо классифицировать более 120 пород собак. Эта задача хорошо подходит для тех, кто хочет улучшить свои навыки в обработке изображений и классификации. Навыки, которые можно получить, включают в себя: работу с классификацией изображений, обработку изображений, увеличение данных, выбор моделей, обработку многоклассовых данных.

Ссылка на задачу: https://www.kaggle.com/c/dog-breed-identification

5. Прогнозирование транзакций клиентов Сантандера . Эту задачу необходимо предсказать, чтобы клиент банка совершил транзакцию в будущем. Эта задача хорошо подходит для тех, кто хочет практиковаться в обработке больших наборов данных и отбора критериев. Навыки, которые можно получить, включают в себя: работу с бинарной классификацией, обработку больших данных, критерии отбора, выбор моделей.

Ссылка на задачу: https://www.kaggle.com/c/santander-customer-transaction-prediction.

6. Прогнозирование доходов клиентов Google Analytics . Для решения этой задачи необходимо предсказать, сколько денег потратит клиент сайта Google Merchandise Store. Эта задача хорошо подходит для тех, кто хочет практиковаться в работе с клиентскими данными и регрессией. Навыки, которые можно получить, включают в себя: работу регрессией, обработку данных, отбор признаков, выбор моделей.

Ссылка на задачу: https://www.kaggle.com/c/ga-customer-revenue-prediction.

7. Классификация изображений Атласа белков человека . В этой задаче необходимо классифицировать типы белков в человеческом алгоритме. Эта задача хорошо подходит для тех, кто хочет практиковаться в обработке изображений и классификации. Навыки, которые можно получить, включают в себя: работу с классификацией изображений, обработку данных изображений, увеличение данных, выбор моделей, обработку многоклассовых данных.

Ссылка на задачу: https://www.kaggle.com/c/human-protein-atlas-image-classification

8. Обнаружение мошенничества с кредитными картами . Эта задача посвящена обнаружению мошеннических транзакций. Она хорошо подходит для тех, кто хочет практиковаться в работе с классными данными и обнаружением мошенничества. Навыки, которые можно получить, включают в себя: работу с классификацией, обработку данных, выбор модели, обработку несбалансированных данных.

Ссылка на задачу: https://www.kaggle.com/mlg-ulb/creditcardfraud

9. Прогноз безопасного вождения в Порту-Сегуру . В этой задаче необходимо предсказать, станет ли клиентом компании Порту-Сегуру страховщиком для автомобилей. Эта задача хорошо подходит для тех, кто хочет практиковаться в работе с бинарной классификацией и обработкой дисбаланса классов. Навыки, которые можно получить, включают в себя: работу с бинарной классификацией, обработку данных, выбор модели, обработку дисбаланса классов.

Ссылка на задачу: https://www.kaggle.com/c/porto-seguro-safe-driver-prediction.

10. Конкурс предложений по цене Mercari . Для решения этой задачи необходимо предложить цену на товар, основываясь на его описании. Это хороший выбор для тех, кто хочет практиковаться в работе с текстовыми данными и регрессией. Навыки, которые можно получить, включают в себя: работа регрессией, обработка текстов, отбор признаков, выбор моделей.

Ссылка на задачу: https://www.kaggle.com/c/mercari-price-suggestion-challengeПопробуйте решить каждую задачу из этого списка, и вы получите опыт работы с разными алгоритмами задач машинного обучения, который поможет вам стать хорошим специалистом в области. МЛ.

После того, как вы решили серию задач, полезно связать примеры решенных задач на Github, ссылку на свой Github - указать в резюме, задачу, решенные на платформе Kaggle, если вы только начинаете свой путь в ML, вы можете описать, как первые проекты .

Желаю успехов!

77
Начать дискуссию