SkillFactory
11 150

Какие навыки нужны специалисту по Data Science

Что нужно знать, чтобы анализировать данные — рассказывают преподаватели школы SkillFactory.

В закладки

Что такое Data Science

В конце июня 2019 года Google выпустила обновление для своего сервиса «Карты». В новой версии приложение научилось предсказывать задержки в движении общественного транспорта даже тогда, когда у него нет доступа к данным текущего местоположения автобусов. Алгоритм рассчитывает время на дорогу с учётом всех факторов: пробок, расположения остановок, выделенных полос. Среди прочего для построения моделей специалисты использовали снимки из Google Street View.

Предсказание скорости движения общественного транспорта — один из примеров того, как бизнесу и пользователям помогает data science.

Наука о данных — обширная сфера, которая сочетает несколько смежных дисциплин. Это программирование, математика и статистика, бизнес-аналитика и машинное обучение.

Специалисты в этой сфере, аналитики данных, работают с большими массивами данных, извлекая из них полезную информацию. Результат даёт ответы на множество вопросов: например, почему один менеджер заключил больше сделок, сколько единиц товара нужно закупить в следующем квартале и какой компонент лекарства улучшит самочувствие пациента. Для решения некоторых задач специалисты разрабатывают алгоритмы, которые способны генерировать результат без участия человека.

По данным HeadHunter, специалисты в анализе данных в 2017 году получали в России от 130 до 300 тысяч рублей в зависимости от опыта.

Спрос на аналитиков данных увеличивается каждый год: только с 2016 года по 2018 он вырос в два раза. При этом доля вакансий для кандидатов с опытом работы меньше года на четверть выше, чем в целом по ИТ-рынку.

В чём нужно разбираться

Требования к подготовке и уровню профессиональных навыков зависят от того, в какой компании предстоит работать специалисту. Например, в крупных корпорациях аналитику данных важно разбираться в математике и статистике. Маркетплейсам и медиакомпаниям нужны эксперты в разработке рекомендательных систем, а в крупном ритейле — в разработке машинного зрения.

Такие навыки востребованы на HeadHunter. Цифра означает количество вакансий

Преподаватели школы SkillFactory изучили вакансии в области Data Science на российском и зарубежном рынке и составили список навыков и областей знаний, которые понадобятся успешному специалисту:

Программирование

Наиболее востребованный и распространенный язык в Data Science сегодня — это Python. До него самым популярным языком был R, который продолжают использовать, например, для анализа данных, научного статистического анализа и в социологии.

По данным Towardsdatascience

Среди прочего Python хорош тем, что на его базе можно разработать практически любую библиотеку, заточенную под выполнение самых разнообразных задач. Базовый дистрибутив Python небольшой, удобен для установки и обновления. Любые дополнительные возможности можно «прикрутить» через специальные библиотеки.

У каждой библиотеки есть обширная документация, поэтому в них легко разобраться. Вокруг самых востребованных и популярных формируются сообщества, которые поддерживают библиотеку, разрабатывают для неё новые модули и функции.

Мы готовы учить людей с нулевым уровнем знаний в программировании. Специально для них мы проводим десять дополнительных вебинаров в рамках курса: пять по вводному блоку и пять по основному. Согласно нашему опросу около трети студентов никогда не программировали, столько же — программировали в школе. Остальные — это люди с каким-то опытом, но матёрых разработчиков среди них мало, чаще всего это люди, которые изучали другие языки программирования.

На курсе мы изучаем базовые алгоритмические конструкции, структуры данных, работу со строками, работу с датами и функции. Начинаем с введения в Python: изучаем кнопки, пишем программу «Hello World». Если студент будет прикладывать хотя бы 40% усилий от своего максимума и вовремя будет давать обратную связь, то изучение даже с нуля не займет много времени. На изучение базового Python понадобится от 2-3 недель до полугода, если заниматься раз в неделю.

Второй этап — знакомство с библиотекой Pandas, которая нужна для сбора, очистки и анализа данных. Это займёт от 1-2 недель если уделять занятиям целый рабочий день и иметь базовые навыки программирования. Нужно быть готовым продолжить обучение после курса: библиотека большая, в ней много функций и настроек, которые нельзя выучить сразу.

Мария Липчанская
старший эксперт курса «Python для анализа данных», кандидат наук

Полезные материалы для изучения Python

  • Pythontutor.ru — хороший бесплатный учебник на русском языке. Это базовая книга, где рассматриваются все основные структуры данных, а ещё много заданий на каждую тему.

  • CS50 на русском (Гарвардский курс по основам программирования) — первые лекции стоит посмотреть всем, кто начинает изучать программирование.
  • Pythonworld.ru — блог, где подробно объяснены основные вопросы программирования и разных методов.
  • Pythonicway.com — похож на предыдущий сайт.

Анализ

Основа работы аналитика данных — работа с данными. В том числе с теми, которые можно «скормить» разработанному алгоритму.

Вокруг огромное количество данных, современное человечество генерирует их с невероятной скоростью каждый день. Эти данные нужно уметь собирать, хранить, приводить в приемлемый для анализа или машинного обучения вид — очищать, форматировать и определять, что именно можно узнать из этих данных.

Анализ данных тесно связан с использованием профильных библиотек для Python и с пониманием математических и статистических основ анализа данных. Важно уметь находить в них закономерности и понимать цели и задачи бизнеса.

Математика и статистика

Заниматься Data Science можно и без глубоких знаний в фундаментальной математике: современные библиотеки содержат огромное количество готовых решений. С их помощью можно анализировать данные и обучать алгоритмы не вдаваясь в математические подробности. Но только до первой по-настоящему сложной или нетипичной задачи.

Разобраться с ними можно только если аналитик данных действительно понимает, как работают все строчки кода «под капотом» с точки зрения математики и статистики. Поэтому крупные компании на собеседованиях часто проверяют уровень знаний соискателя в этих областях.

В чём нужно разбираться специалисту:

  • Линейная алгебра — основы работы с векторным и матричным представлением данных.

  • Математический анализ — для оптимизации моделей и алгоритмов, понимания, где можно «докрутить» модель, чтобы она работала лучше и быстрее.
  • Теория вероятности и статистика — для многих алгоритмов машинного обучения, проведения анализа данных и адекватного проведения a/b-тестов. Помогает оценить, насколько вообще можно полагаться на имеющиеся данные, как работать с выбросами в данных, которые могут испортить всю достоверность информации.
  • Использование NumPy и других библиотек Python для вычислений и построения моделей. Для математических и статистических вычислений и преобразований уже повсеместно используют возможности Python, а для работы с машинным обучением знание этих инструментов необходимо.

Для изучения Data Science необходимо базовое знание школьного курса по математике. Не на уровне 80 баллов ЕГЭ — достаточно знать, что такое квадратичные уравнения и как они решаются, как умножаются скобки. Важно разбираться в технических моментах.


На курсе по Data Science в SkillFactory изучение математики состоит из трёх блоков: основы линейной алгебры, матанализ и теория вероятности и статистика. Студентам не придётся доказывать теоремы или как-то углубляться в основы. Например, блок про матанализ — это скорее рассказ про математику, из которого становится понятно, что математики умеют сегодня и как этим можно пользоваться.

Аяна Шелике
преподаватель статистики и линейной алгебры МИЭФ ВШЭ, автор и преподаватель на курсе по математике и статистике

Полезные материалы по математике

  • «(Не)совершенная случайность» Леонарда Млодинова.

  • «Гарри Поттер и методы рационального мышления» Элиезера Юдковского.
  • «Голая статистика» Чарльза Уилана.
  • Серия «Образовательная манга».
  • YouTube-канал 3blue1brown.

Машинное обучение и глубокое обучение

Обучение нейросетей — один из подразделов машинного обучения, в котором, в свою очередь, выделяется глубокое обучение. Сложная система терминологии связана с тем, что область развивалась десятилетиями до того, как очередные прорывы в методах сделали её по-настоящему популярной — подобласти выделялись постепенно. Сейчас, когда речь идет об обучении нейросетей, чаще всего подразумевают методы глубокого обучения.

Машинное обучение — огромная самостоятельная область, но лишь часть науки о данных. В ней можно развиваться практически бесконечно — новые методы появляются каждый год. Если раньше Deep Learning был условно единой областью знаний, то сегодня входящие в него подобласти — компьютерное зрение, работа с естественным языком, обучение с подкреплением, генеративно-состязательные сети и другие методы, — выделяются в самостоятельные сферы специализации. Это направление растёт невероятно быстро, заставляя специалистов постоянно поддерживать свой уровень знаний, чтобы успевать за рынком.

Путь от нуля до первых результатов в машинном обучении занимает от шести месяцев до года. С опытом в программировании — быстрее. Область машинного обучения уже получила набор инструментов, с помощью которых можно быстро создавать рабочие модели. Проблема лишь в написании обертки вокруг модели и написании той части кода, которая отвечает за предобработку данных. Поэтому специалистам нужен опыт, а опыт нарабатывается только работой.

На курсе по Data Science в SkillFactory я отвечаю за три блока: введение в машинное обучение, предобработка данных и метрики. В первом блоке я рассказываю, что умеют делать машины, а что нет. Во втором блоке мы учимся решать проблему плохих данных или неполных данных. Третий блок учит проверять, работает ли модель машинного обучения и как её улучшить.

Эмиль Магеррамов
COO Data Lab в компании EORA, автор и преподаватель на курсе по машинному обучению

Полезные материалы по машинному обучению

  • Thecode.media — очень простая вводная статья для тех, кто не знаком с темой.

  • Colab.research.google.com — подробный материал про нейросети на английском языке.
  • Coursera.org — курс Machine Learning от Andrew Ng на Coursera.

    Книга «Создаем нейронную сеть» Тарика Рашида.

Data Engineering

Данные обладают структурой в аналитическом, информационном и даже физическом смысле — их нужно где-то хранить, поддерживать доступность и устойчивость, организовывать архитектуру. Например, Нью-Йоркская фондовая биржа ежедневно генерирует 1 терабайт данных о торгах за прошедшую сессию.

Организовать работу с данными, измеряемыми в сотнях и тысячах терабайт, непросто. Для взаимодействия с ними есть свои подходы, концепции и инструменты.

Организацией сбора, хранения и доступа к данным занимаются информационные инженеры. Аналитику данных придётся либо общаться с ними на одном языке, либо — особенно в небольших компаниях — самому выполнять функции дата инженера.

Полезные материалы

Data Science в продакшн

В конечном итоге все знания и инструменты нужны для того, чтобы применять их в интересах бизнеса. Здесь важны два навыка:

  • Умение определять, какие именно инструменты нужны для решения конкретной задачи: где внедрить машинное обучение, а где построить базу данных и внедрить SQL-запросы.

  • Продуктовый взгляд на свою работу: умение общаться и налаживать контакты с коллегами, аргументировать свою точку зрения, управлять процессами в своей работе и команде.

Чтобы стать специалистом в data science, нужно освоить много навыков в самых разных областях. Это посильная задача: каждую сферу можно осваивать и углублять постепенно.

Будущим аналитикам данных нужна самоорганизация и целеустремленность, чтобы освоить такой объём знаний. Придётся ориентироваться в потоках информации, не потеряться в порядке изучения, найти самые актуальные методы и принципы, а самое главное — разобраться, почему что-то работает не так, и найти достаточное поле для практики.

Для тех, кто не боится вызовов и хочет освоить востребованную специальность, в Skillfactory разработали курс по Data Science. Он спроектирован в соответствии с запросами рынка в сотрудничестве с практиками data science из российских компаний.

Весь материал подобран и организован так, чтобы студенты постепенно осваивали необходимые навыки и отрабатывали их на большом количестве практических заданий — на тренажёрах, аналитических кейсах, создании алгоритмов машинного обучения и в соревнованиях.

Комплексная и продуманная программа дополняется сильным сообществом, в котором состоят студенты разных потоков, кураторы, менторы и наставники. Каждый из них выполняет свою роль: одни помогают с техническими и организационными вопросами, другие поясняют правильность выполнения учебных задач, третьи отвечают на вопросы о реалиях сферы data science, мотивируют продолжать учебу и развивают своих подопечных.

В рамках курсах вам будет предложено решить несколько кейсов, которые основаны на реальных задачах бизнеса. Вы сможете поработать в команде с другими студентами, прокачать навыки, полученные в курсе и получить успешных проект для вашего портфолио. Эта возможность сделает вас востребованным специалистом на рынке сразу после завершения программы.

На SkillFactory вы можете получить бесплатный двухнедельный доступ к курсу Data Science. А для тех читателей, кто захочет продолжить, есть промокод на скидку 25%: VC-25

{ "author_name": " SkillFactory", "author_type": "editor", "tags": [], "comments": 19, "likes": 15, "favorites": 66, "is_advertisement": false, "subsite_label": "skillfactory", "id": 81058, "is_wide": true, "is_ugc": false, "date": "Fri, 30 Aug 2019 12:31:22 +0300", "is_special": false }
0
{ "id": 81058, "author_id": 199514, "diff_limit": 1000, "urls": {"diff":"\/comments\/81058\/get","add":"\/comments\/81058\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/81058"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 199514, "last_count_and_date": null }
19 комментариев
Популярные
По порядку
Написать комментарий...
5

В чём нужно разбираться

PYTHON

SQL

BIG DATA

MACHINE LEARNING

Это просто список баззвордов, информации в этом ноль.

Среди прочего Python хорош тем, что на его базе можно разработать практически любую библиотеку, заточенную под выполнение самых разнообразных задач. Базовый дистрибутив Python небольшой, удобен для установки и обновления. Любые дополнительные возможности можно «прикрутить» через специальные библиотеки.

Всё наоборот: быстрое прототипирование, но ограниченное применение в проде, dependency hell

Ответить
2

Ребята не надо лезть в Data Scince, Вы молодые, шутливые, вам все легко. Это не то PHP и даже не Basic. Сюда лучше не лезть. Серьезно, любой из вас будет жалеть. Лучше закройте тему и забудьте что тут писалось. Я вполне понимаю что данным сообщением вызову дополнительный интерес, но хочу сразу предостеречь пытливых - стоп. Остальные просто не найдут.

Ответить
0

Забавно, но недавно две встреченных девушки около 20 лет, секретарь и бухгалтер, сообщили о планах заняться дата сайенс и через год обучения по вечерам начать работать. Бекграунда у них никакой. Приметы времени

Ответить
0

Сейчас хайп на эту тему. Впаривают бабеням курсы, они с мечтами о большом заработке несут деньги.
Но в итоге так и остаются менеджерами и секретутками.

Ответить
0

Что если я люблю боль и докручивать гиперпараметры до посинения? А цифры и анализ данных вызывают восторг?

Ответить
0

В реальности такое не востребовано на рынке. Только как хобби.

Ответить
0

Простите, какое отношение вы имеете к ДС, если гиперпараметры не имеют отношения к этому, как вы утверждаете?

Ответить
1

Самое прямое. Работаю в этой сфере. Всё чему учат на курсах в реальности не нужно. Узнаешь это, если устроишься на работу.

Ответить
0

В этой сфере , явно не ДС инженер, иначе бы таких утверждений бы не было

Ответить
0

Те кого называют ДС-инженерами не работают с гиперпараметрами.

Ответить
0

А как же они улучшают модель?

Ответить
0

Разберись в терминологии. ДС-инженеры собирают данные для ДС-специалиста.

Ответить
0

Вы не ответили на мой вопрос, не вижу смысла продолжать дискуссию

Ответить
0

Круто ты сел в лужу и слился.
Они не улучшают модели, потому что их и не строят.

Ответить
0

Как это вы пришли к выводу что я не работаю ДС?

Ответить
0

Очевидно же, что вымышленные представления аля Kaggle, несовместимые с реальностью крупнейших российских компаний.

Ответить
–1

Ещё вы любите сравнивать себя с юными девушками и доказывать в интернетах

Ответить
0

Меня всегда интересовало, почему все статьи об IT на подобных ресурсах вспоминают зарплаты? Типа вот, 300к деревянных, ко-ко-ко! Ведь для образованных людей и так понятно что это довольно интересный пласт технологий.

Ответить
0

Помогает продавать курсы, очевидно же.
Раньше были phpшники на хайпе у курсовещателей, теперь вот датасаентисты.

Ответить
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "Article Branding", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "cfovx", "p2": "glug" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Баннер в ленте на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "disable": true, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ] { "page_type": "default" }