Работа в Data Science в 2022 году: тренды, навыки и обзор специализаций

О том, кем работать в Data Science, как изменилась индустрия в 2022 году и какие базовые навыки необходимы для старта, рассказывает исследователь из AIRI и академический директор онлайн-магистратуры МФТИ «Науки о данных» Леонид Саночкин.

Работа в Data Science в 2022 году: тренды, навыки и обзор специализаций

Кто такой Data Scientist и чем он занимается?

Data Scientist — это специалист, который работает с большими массивами данных, чтобы с их помощью решить задачи бизнеса. Простой пример использования больших данных и искусственного интеллекта — умные ленты в социальных сетях. На основе ваших просмотров и лайков алгоритм выдает рекомендации с контентом, который может быть вам интересен. Эту модель создал и обучил дата-сайентист, и скорее всего, не один.

В небольших компаниях и стартапах дата-сайентист делает все: собирает и очищает данные, создает математическую модель для их анализа, тестирует ее и презентует готовое решение бизнесу. В крупных компаниях Data Science занимается целая команда, где каждый специалист берет на себя конкретный пласт задач. Дата-инженер достает данные, очищает и готовит к дальнейшей работе, ML-инженер создает и обучает модели, аналитик данных обеспечивает коммуникацию между техническими специалистами и бизнесом, переводит бизнес-задачи на язык математических моделей и обратно.

Тренды и перспективы Data Science

Профессии, связанные с анализом данных, на мой взгляд не потеряют актуальности ни через два года, ни в ближайшие 10–15 лет. Данных становится все больше, их нужно обрабатывать и использовать.

Востребованность и зарплата дата-сайентиста

Статистика министерства труда США показывает, что сфера Data Science активно растет: по прогнозам ведомства, к 2026 году по объему вакансий эта область увеличится на 28%. В России рынок данных стабильно растет с 2010 года, несмотря на пандемию: в 2021 году он оценивается в 46 млрд рублей.

Сегодня стартап без ИИ — это не стартап. Раньше был тренд на автоматизацию, сегодня к нему добавился тренд внедрять в процессы искусственный интеллект. В России самые быстрорастущие области применения AI — это бизнес-аналитика, компьютерное зрение, большие данные в здравоохранении, распознавание естественных языков и реклама.

<a href="https://api.vc.ru/v2.8/redirect?to=http%3A%2F%2Fairussia.online%2F%23time&postId=440554" rel="nofollow noreferrer noopener" target="_blank">Карта AI России</a> показывает количество компаний, связанных с искусственным интеллектом и большими данными, а также рост этого показателя с 2000 по 2021 год.
Карта AI России показывает количество компаний, связанных с искусственным интеллектом и большими данными, а также рост этого показателя с 2000 по 2021 год.

Что касается востребованности специалистов, то вместе с рынком растет и количество вакансий. За последние три года запрос на специалистов по Data Science вырос на 433%. На начало июня в России дата-сайентистов ищут на 872 вакансии, в том числе в крупные компании, банки и международные стартапы.

Работа в Data Science в 2022 году: тренды, навыки и обзор специализаций

Также отток из страны специалистов может позитивно повлиять на возможности тех, кто сейчас еще учится и готовится выйти на рынок. В ближайшие два года можно быть спокойным: учиться, ходить на стажировку в ходе учебы.

По данным Open Data Science, зарплата джуниора в Data Science варьируется от 70 000 до 120 000₽, специалисты уровня мидл получают от 130 000 до 210 000₽, сеньор Data Scientist зарабатывает от 180 000 до 280 000₽, а лид — от 180 000 до 300 000₽.

Источник: <a href="https://vc.ru/hr/288351-zarplata-v-data-science-obzor-rynka-po-dannym-iz-chata-ods" rel="nofollow noreferrer noopener" target="_blank">Open Data Science</a>
Источник: Open Data Science

Что изменилось за последние месяцы?

Несмотря на события 2022 года, международное научное сообщество по-прежнему открыто для российских ученых по данным. Журналы выпускают рекомендации для редакторов о недопустимости дискриминации в науке, в том числе по гражданству. Публикации с аффилиацией нашего института продолжают принимать в международных сборниках и конференциях: например, ближайшее выступление на конференции моей команды будет в июле на конференции NAACL (North American Chapter of the Association for Computational Linguistics). В 2022 году, по данным AI Index-2022, по количеству публикаций Россия поднялась на 12-е место в мире.

В то же время определенные трудности все же возникают: часть сервисов с платной подпиской стали недоступны или сложно доступны для российских специалистов.

Что должен уметь Data Scientist?

Перечень необходимых навыков для разных специализаций будет отличаться. Однако, прежде чем выбирать узкую нишу, нужно освоить базу, посмотреть на разные направления. Список основных навыков для Data Science выглядит так.

Жесткие навыки

  • Фундаментальная математическая подготовка: линейная алгебра, теория вероятности и немного матанализ.
  • Программирование. Стандарт отрасли — это Python, но вам также может пригодиться Java или более низкоуровневые языки типа C++.
  • Знание моделей и алгоритмов машинного обучения. Если вы понимаете, как работают алгоритмы и структуры данных, вам будет проще создавать свои. Также стоит освоить софт для машинного обучения, например библиотеки Tensorflow, фреймворк PyTorch.
  • Сервисы для работы с базами данных, чтобы собирать, хранить, эффективно доставать и презентовать данные. Пригодится знание языка запросов SQL, инструментов обработки больших данных Apache Spark, Kafka, Hadoop, Apache Cassandra, а также сервисов для визуализации, например Tableau.
  • Понимание принципов работы Deep Learning. Если вы планируете решать задачи в области NLP, Computer Vision и Speech Recognition, необходимо знать математический аппарат и инструменты, которыми реализуется обучение нейросетей.

Мягкие навыки

  • Переводить с языка бизнеса на язык математического моделирования и наоборот. Бизнес-задача часто диктует стек методов, которыми вы будете ее решать. Именно поэтому важно уметь говорить с бизнесом на одном языке и понимать, для чего нужна ваша модель.
  • Работать в команде. Чаще всего Data Science — это командная работа: чтобы выполнять общие цели, нужно уметь работать слаженно и слышать друг друга. Особенно это важно, если вы хотите расти до сеньора или тимлида на вашей позиции. Для этого нужно также уметь распределять задачи и контролировать их выполнение.
  • Английский язык. Он нужен, чтобы читать документацию, академическую литературу и описание новых методов на языке оригинала, не дожидаясь, пока кто-то их переведет. Также язык нужен, чтобы общаться с зарубежными партнерами или работодателями.

Кем работать в Data Science?

До начала 2000-х годов компании в основном искали специалистов по Computer Science. После, когда они успели поработать, начали формироваться конкретные требования к специалистам: что, собственно, бизнесу от нас нужно. Сейчас то же самое происходит с Data Science: большую сферу разделяют на подпрофессии.

В небольших стартапах, скорее всего, все задачи по Data Science возьмет на себя один универсальный специалист. Если же компания — это условный Яндекс или Сбер, то с большими данными и искусственным интеллектом здесь будет работать целая команда, и не одна. Разберемся, какие еще подпрофессии есть в Data Science и на чем может сосредоточиться специалист с хорошей базой.

Data Engineer — специалист, который собирает данные и готовит их для дальнейшей обработки и использования в моделях. Это очень важный этап в пайплайне работы с большими данными: в большинстве кейсов удачные сбор и обработка данных — это 80–90% успеха. Также в работу дата-инженера входит организация инфраструктуры, которая позволила бы хранить данные и при необходимости быстро доставать, автоматизация этих процессов.

Machine Learning (ML) Engineer создает, обучает и тестирует модели, которые решают бизнес-задачи с использованием больших данных. В его обязанности входит также вывести модель в продакшн, поддерживать и оптимизировать алгоритм. Модель должна не просто решать задачу, но делать это качественно, быстро, понятно для конечного пользователя. За это отвечает ML-инженер. Например, он может обучить алгоритм анализировать данные анкет людей, которые подали заявку на кредит в банке. Финальное решение — выдавать заем или нет, — конечно, принимает человек. Однако первичный отбор при помощи математической модели избавляет банковских менеджеров от огромного количества рутинной ручной работы.

Natural Language Processing (NLP) Engineer обучает алгоритмы распознавать текст на естественном языке и извлекать из него необходимые для бизнеса данные. Один из самых очевидных примеров работы NLP-инженера — чат-боты, которые распознают вопросы клиента компании, выдают типовой ответ или переводят на живого оператора. Это также снижает нагрузку на сотрудников и оставляет им только сложные и интересные задачи.

Computer Vision (CV) Engineer учит математические модели распознавать изображения и объекты на них. Такие модели используются, например, в системах распознавания лиц (Face ID) или в сельском хозяйстве. Системы компьютерного зрения могут отследить состояние посевов по снимкам и выдать фермерам рекомендации по уходу: где нужны дополнительные поливы или удобрения.

Кажется, этот алгоритм нуждается в хорошем CV-инженере
Кажется, этот алгоритм нуждается в хорошем CV-инженере

Со временем узких специализаций для ML-инженеров может стать больше. Например, сейчас компании часто ищут ML-инженеров с пониманием медицинского домена, чтобы делать сервисы для здравоохранения. Пробуйте, ищите, с какими данными вам интересно работать, и углубляйтесь в их изучение.

Data Analysts, или аналитики данных, тоже не теряют своей актуальности. Это специалисты, которые максимально приближены к бизнесу. Они берут обработанные данные, анализируют их с точки зрения пользы для бизнеса и оформляют свой анализ в презентацию. Аналитик данных в крупной компании выступает проводником между бизнесом и техническими специалистами: он может переложить бизнес-задачу на язык данных и математики, поставить цели перед ML-инженером, а итоговый результат работы отдела Data Science презентовать бизнес-менеджменту.

ML-researcher — это профессия, в которой можно построить академическую карьеру и совместить ее с практической деятельностью. ML-исследователь занимается глубоким исследованием работы искусственного интеллекта и ищет методы, которые лучше всего подходят для конкретных предметных областей, например медицины или промышленности. Работать ML-исследователь может в R&D-отделе крупной компании, например в Сбере или Яндексе, или в научном институте, например в Сколтехе, МФТИ, AIRI, ВШЭ. ML-исследователь не имеет ничего общего с образом советского ученого из НИИ в белом халате. Для таких специалистов есть возможность совмещать науку с практикой или углубиться в академические исследования, при этом получая зарплату по рынку.

Где учиться Data Science?

Самостоятельно. Этот метод подойдет тем, у кого уже есть опыт работы или обучения в IT. Начать погружаться в Data Science можно с учебника Dive into Deep Learning, затем приступить к изучению Python и SQL, например на бесплатных курсах или на YouTube. Помогут вам также кейсы от практиков, их можно искать на Хабре. Учиться Data Science самостоятельно — довольно сложная задача, которая требует силы воли, дисциплины и конкретного учебного плана.

Онлайн-курс — хороший старт для новичков в IT. Здесь все необходимые базовые знания собрали и систематизировали за вас, есть возможность попрактиковаться на учебных задачах и получить фидбек от кураторов.

Магистерская программа по Data Science. Например, онлайн-магистратура МФТИ «Науки о данных» подойдет тем, у кого есть база в программировании или математике. Экономистам или специалистам с гуманитарным образованием попасть в магистратуру будет сложнее, но для них мои коллеги уже разрабатывают подготовительный курс. Здесь вы найдете зрелое сообщество преподавателей и студентов, которые готовы получать глубокие знания. Также в магистратуре со второго семестра можно выбрать специализацию и начать осваивать алгоритмы NLP или компьютерного зрения.

Дипломным проектом станет решение реальных задач от компании, в которой студент работает, либо мы подберем кейсы от компаний — партнеров магистратуры. Выпускники онлайн-магистратуры получат диплом государственного образца и смогут претендовать на мидл-позицию или близкую к ней, заняться наукой и изучать новые методы работы с данными.

77
3 комментария

Комментарий недоступен

а ты видно сантехник или откачивальщик гоМна, так нужный миру

1

обычно недалекие люди, когда в чем-то не разбираются, то считают это ненужной херней.. так же проще, чем признать себя недалеким и отсталым

1