Стоит ли смотреть в сторону Data Science? Разбираем особенности профессии и перспективы

Каким компаниям нужны специалисты по Data Science и какие навыки нужны джуну — рассказывает тимлид отдела по Machine learning.

Стоит ли смотреть в сторону Data Science? Разбираем особенности профессии и перспективы

Разбираемся, кто такие дата-сайентисты, кому идти в эту сферу и с чего начать изучение основ. Также расскажем, востребована ли профессия, её перспективы и каким компаниям нужны специалисты.

Женя Толстов
тимлид ML-отдела в группе компаний ФСК

Дата-аналитики и дата-сайентисты: в чём разница

Дата-аналитики и дата-сайентисты работают с данными и используют базовые инструменты типа SQL, Excel и Python. Отличия кроются в задачах, которые они решают, и в результатах работы.

Дата-аналитики анализируют исторические данные. Результат их работы — выводы, отчёты, документация. В дата-анализе есть много направлений. Например, системные аналитики могут участвовать в построении инструментов для хранения данных, бизнес-аналитики общаются с заказчиками и формируют бизнес-требования, выстраивают бизнес-процессы.

Часто аналитики решают аd-hoc задачи — это задачи, которые не входят в повседневные обязанности аналитика. Например, если в данных выявили аномалию, дата-аналитику могут поручить разобраться в этой проблеме.

Аналитику не нужно разбираться в работе алгоритмов и предиктивных моделей, поэтому порог входа в профессию ниже.

Дата-сайентисты специализируются на построении моделей и прогнозировании. Основнои результат их работы — это модели машинного обучения. В зависимости от задач и типов данных дата-сайентисты могут строить как линейные модели или модели на «деревьях решений» для табличных данных, так и модели нейронных сетей для работы с изображениями, видео, текстами и так далее.

Чтобы работать дата-сайентистом, специалисту нужна неплохая математическая и алгоритмическая база. Работодатели ценят кандидатов с техническим образованием, а самые сильные спецы на рынке — это, как правило, выпускники МФТИ, НИУ ВШЭ И МГУ.

Высшее образование — ценно, но необязательно

Десять лет назад программ обучения дата-сайенсу было мало, и многие приходили в профессию из смежных областей — из разработки или аналитики. Сегодня у студентов гораздо больше возможностей: есть курсы, программы дополнительного образования и специализированные программы в вузах.

Стоит ли изучать машинное обучение в вузе — вопрос открытый. Зависит от того, каким дата-сайентистом вы планируете стать. Если хотите быть одним из лучших в стране, идите в физтех и в магистратуру ШАД. Повторюсь: специалисты с сильным техническим образованием ценятся на рынке.

Если ваша цель — быстрее войти в профессию и начать нарабатывать опыт, можно ограничиться хорошими курсами. Имейте в виду, что придётся часто использовать математику, много кодить и долго разбираться в задачах. Чтобы работать в дата-сайенсе, однозначно нужна усидчивость.

Востребованность профессии

По моим наблюдениям, востребованность профессии растёт. Случаются всплески популярности, например, появление GPT-4 в 2023 году. Бизнес захотел использовать ML-модели для создания чат-ботов, обработки естественного языка, и вакансий для дата-сайентистов стало больше.

В будущем спрос сохранится, но, вероятно, профессия трансформируется. Сейчас роли дата-сайентистов и дата-аналитиков плавно сливаются. Работодатели ищут специалистов, которые разбираются в машинном обучении и владеют стандартными аналитическими методами. Встречаются вакансии дата-аналитиков с требованием знания ML.

Чтобы оставаться востребованными, дата-сайентистам придётся постоянно осваивать новые инструменты. Умение кодить не потеряет своей актуальности — это наша база.

Работодатели предъявляют высокие требования к знаниям и навыкам дата-сайентистов, но в качестве награды за компетентность предлагают высокие зарплаты. Если верить Хабр Карьере, средняя зарплата джуна — 112 000 рублей, мидла — 215 000, синьора — 350 000.

Какие навыки развивать джуну

Джунам поручают самые понятные задачи: выгрузить данные или улучшить существующую модель. Джуны работают под руководством мидлов или синьоров, от них же обычно получают задачи. С заказчиками обычно не встречаются, поэтому на начальном этапе навыки переговоров не так важны.

Джун должен владеть языками программирования и уметь работать с базами данных. Основные языки — Python и SQL. Python пригодится в анализе данных и машинном обучении, а SQL — для работы с базами и извлечения нужной информации.

Чтобы разобраться в основах профессии, рекомендую Учебник по машинному обучению от ШАДа. Иногда заглядываю туда, чтобы освежить знания. В учебнике собрано всё, что нужно знать о ML: от простых концепций до тонкостей машинного обучения. Ещё рекомендую сообщество Open Data Science на Хабре. Там много статей о машинном обучении.

Дата-сайенс — работа для усидчивых. Вам придётся долго и усердно гуглить, ничего не понимать, разбираться в специфике бизнеса, сидеть над логикой, снова ничего не понимать, много кодить. И так по кругу.

Часто важны не только хардскилы, но и погружение в доменную область. Например, я узнал, как устроена стройка, какие факторы влияют на цену квартир. А дата-сайентисты, например, в металлургических компаниях изучают работу прокатных станков, чтобы прогнозировать, когда они сломаются.

Кому нужны дата-сайентисты

Высокотехнологичные компании первыми внедряют инновации, а потом остальные следуют их примеру. В сфере дата-сайенс этот процесс уже идёт: машинное обучение используют не только техногиганты, но и, например, строительные компании, такие как моя. Постепенно это направление станет популярным и в других сферах.

Любая крупная компания может автоматизировать и использовать данные для получения дополнительной прибыли. Но дата-сайенс стоит дорого, поэтому это не стандартная опция, а скорее экстрафича. Если у компании есть деньги на это и объёмы задач настолько большие, что имеет смысл их оптимизировать, тогда привлекают дата-сайентиста.

Дата-сайентисты в сфере строительства

С 2020 года строительный рынок вырос благодаря субсидиям на строительство и ипотеку. Застройщики заработали много денег, крупные компании начали покупать мелкие и вкладываться в цифровизацию.

У застройщиков много данных, которые нужно правильно собирать, обрабатывать, хранить и использовать. Здесь и подключаются дата-сайентисты. Вот чем занимается моя команда:

Индексация цен — процесс определения и корректировки цен на квартиры. Раньше индексацию вручную считали аналитики, а сейчас мы разрабатываем алгоритм, который автоматизирует этот процесс и улучшает метрики. Например, можно настроить алгоритм на увеличение выручки или повышение скорости продажи квартир.

Оптимизация строительства — продажи квартир начинаются сразу после получения разрешения на строительство, но компания не может строить все корпуса одновременно, так как деньги от продаж поступают только после завершения стройки через эскроу-счета. Мы определяем, в каком порядке выводить на продажу корпуса жилого комплекса, чтобы быстрее получить средства и использовать их для дальнейших работ.

Обработка документов — оцифровка документов, например, строительных смет, с информацией об оборотах. Смет много, и все они по-разному оформлены, поэтому задача нетривиальная.

Разработка чат-ботов — сейчас все хотят использовать нейросети в работе. Например, создать чат, который ответит на узкоспециальные вопросы сотрудников: объяснит простыми словами информацию из документов, поможет найти данные в тех же сметах. Дата-сайентисты обучают и настраивают чат-ботов.

1717
2 комментария

при таком взрывном развитии нейросетей, довольно сомнительно все это

Ответить

дата-инженеров забыли. хотя, возможно, они у вас в дата-сайнтистах сидят. но в общем интеграции между айти-системами и нейронками сейчас мало кто умеет делать. хотя вот да - как вы и сказали, ручками данные выгрузили, на питоновских шаблонах как-то обработали, в ручную куда-то результаты загрузили. инженер все это без человека может устроить. датасайнтист без вышки - спорно, но малому бизнесу и технологическим энтузиастам-любителям окей.

Ответить