Как быстро начать программировать на Python аналитику данных?

От автора Telegram-канала Аналитика и Growth mind-set (делюсь кейсами с работы, бесплатным обучением, задачами с собеседований).

Я уверена, что даже полный новичок в Python сможет сделать простой анализ уже через 2 недели. Анализ данных на Python - это не миллионы строк кода, многие манипуляции с данными - это всего лишь одна или несколько строчек.

Вот некоторые мысли из моего опыта.

1) ИЗУЧИТЕ ОСНОВЫ PYTHON (СИНТАКСИС).

Однако тут может возникнуть проблема - вы неделями и месяцами изучаете синтаксис, но при этом до сих пор не понимаете, как делать анализ данных с помощью Python.

На старте я изучала бесплатный курс Python в 2х частях (Часть 1 и Часть 2 на Stepik. Хороший курс? Да. Но изучать его довольно долго. Заявлено 40 + 64 часа, но выходит гораздо больше. Некоторые задачи можно решать по несколько часов, а задач только в Части 1 более 150). Ну и если уделять даже 2 часа в день 5 дней в неделю, обучение все равно растянется на несколько месяцев, а то и полгода. А за это время вы так и не поймете, как делать анализ данных с помощью Python.

Синтаксис знать важно, но также важно не утонуть в нем. На мой взгляд, начать лучше с более короткого курса и быстрее перейти к изучению библиотек для анализа данных и практике. А к синтаксису вы так или иначе будете возвращаться и углубляться в него по мере практики.

Например, есть 2 коротких бесплатных курса от Kaggle по синтаксису: Введение в программирование с Python и Python. Но можно брать и другие.

2) ИЗУЧИТЕ БИБЛИОТЕКИ ДЛЯ АНАЛИЗА ДАННЫХ.

Именно изучая библиотеки вы и поймете, как делать анализ данных с Python. Библиотеки - это наборы шаблонов кода для каждой конкретной ситуации. Знакомиться с библиотеками лучше всего выполняя реальный проект по анализу данных.

Начните с Pandas - это основная библиотека для работы с данными. С помощью нее можно очищать и подготавливать данные, делать анализ, визуализировать и др.

А если вы уже знаете Excel или SQL, то вам будет еще проще освоить эту библиотеку: Pandas имеет схожие функции и может принимать различные типы данных. На официальном сайте Pandas даже есть туториалы, где функции Pandas приводятся в сравнении с Excel или SQL.

Освоив азы Pandas, вам будет легко понять Numpy, Matplotlib, Seaborn и другие библиотеки для анализа данных.

Например, вот краткий бесплатный курс по визуализации данных в Python от Kaggle (а именно используются библиотеки Seaborn и Matplotlib).

3) НАЧНИТЕ ПРАКТИЧЕСКИЙ ПРОЕКТ ПО АНАЛИЗУ ДАННЫХ С ПЕРВЫХ ДНЕЙ

Обучение на практике - лучший способ научиться программировать. Да, это вызов и выход из зоны комфорта, но так вы научитесь гораздо быстрее. После короткого курса синтаксиса уже можно переходить к реальному проекту, в процессе изучая библиотеки.

Поначалу можете подсмотреть, как выглядят проекты по анализу данных у других (например, на Medium много таких проектов). Также примеры проектов анализа данных с помощью Python и где взять данные писала тут.

Если в процессе сталкиваетесь с ошибками, то в помощь Google и Stackoverflow.

4) ЧТОБЫ ПИСАТЬ КОД, НУЖНО НАСТРОИТЬ СРЕДУ РАЗРАБОТКИ.

Первый раз мне эта задача не показалась легкой, тк возникали ошибки, которые я достаточно долго исправляла.

Поэтому с первых дней можно начать с облачных сред разработки, в которых можно писать код сразу без настройки. Например, Google Collab или Kaggle Notebook. А в последствии установите среду разработки, например PyCharm, VScode или другую.

Подписывайтесь на мой канал Аналитика и Growth mind-set, там публикую больше интересного. Вот некоторые посты:

66
Начать дискуссию