Зарплата в data science: обзор рынка по данным из чата ODS
Делимся нашим исследованием вакансий и зарплат в сфере data science и data engineering. Спрос на специалистов растет, или рынок уже насытился, какие технологии теряют, а какие набирают популярность, размер зарплатных вилок и от чего они зависят?
Зарплата Junior Data Scientist от 70 до 120 тыс. руб. (здесь и далее 25% и 75% квантили), для Middle DS - от 130 до 210 тыс. руб., для Senior Data Scientist - от 180 до 280 тыс., для Lead - от 180 до 300 тыс.
Сразу оговорюсь, что приведенные данные могут не отражать картину по рынку в целом. Во-первых мы использовали только один источник - чат Open Data Science. Во-вторых вакансии размещенный там обычно содержат вилку от X до Y и эти границы могут быть довольно широкими. В-третьих данные могут содержать неточности, например когда в одной вакансии ищут специалистов от junior до senior уровня и вилка указана одна, например от 100 до 300 тыс. руб.
Посмотрим на вклад уровня и специализации вакансии на зарплату
Инженерам и саентистам платят немного больше, чем аналитикам, примерно на 11-14 тыс., а вот грейд влияет на вилку намного сильнее. Самый резкий скачок происходит при переходе от Джуна к Мидлу +74 тыс. (71%), далее - от мидла к синьору +58 тыс. (32%) и небольшой рост от синьора к лиду +17 тыс. (7%).
Динамика зарплат
Посмотрим на изменений зарплат год к году. В некоторые группы попадает мало данных, поэтому заменим среднее на устойчивую к выбросам медиану.
В среднем по рынку зарплата росла на 11% в год. При этом в 2019 году роста не было совсем, а вот в 2020 году наблюдался максимальный рост в 20%. Интересно, что в 2021 году зарплата увеличилась пока на 10%, при том что кол-во вакансий выросло на 120%, то есть зарплаты не поспевают за ростом спроса. Возможно, работодатели среагируют с некоторой задержкой, и мы увидим ускорение роста во втором полугодии 2021 года.
Зарплата data engineer почти не изменилась за последние 3 года, но это может быть связано с использованием медианы и малым кол-вом наблюдений в этой группе или изменением соотношения по грейдам.
Data analyst, действительно, получали ощутимо меньше, чем саентисты и инженеры, но в 2021 году их зарплата выросла на 21%, и отставание сократилось. У data science стабильный рост зарплаты в cреднем на 11% в год.
Вилка для джунов почти не изменилась за последние 3 года, по всем остальным уровням есть более-менее стабильный рост. Сильнее всего выросла зарплата специалистов уровня lead: +40% за 3 года.
Кол-во и динамика вакансий
До второго квартала 2020 тренд был почти линейный, затем произошло небольшое падение и стагнация длиной в 2 квартала, но уже с 4 квартала 2020 года пошел заметный рост, который ускорился в 2021 году.
Динамика 2021 года вообще очень сильно выбивается из сложившегося тренда: прирост на 120% по кол-ву вакансий относительно 2020 года
Посчитан как год к году по первым полугодиям для сравнимости с 2021 годом.
В 2021 году спрос на дата аналитиков вырос на 222%, на дата инженеров - на 127%, а вот на дата саентистов - только на 93%. Возможно, сейчас появилось понимание, что data science команда состоит из разных ролей, и набирать одних саентистов без инженеров и аналитиков не так эффективно.
Больше всего вакансий и самый быстрый рост - по мидлам и синьорам/милордам. Джунов ищут чуть чаще, чем лидов, но спрос на лидов растет быстрее, возможно, это только специфика чата ODS, где чаще ищут специалистов с опытом.
Посмотрим еще на распределение грейдов для каждой специальности
Спрос на джунов в дата инжиниринге ниже, чем в аналитике и data science. Если вы хотите стать дата инженером, то, возможно, стоит начать с аналитики или разработки и потом постепенно перекатываться.
Вакансии по городам
Дальше первой пятерки городов смотреть бессмысленно. Москва имеет подавляющее преимущество, Петербург отстает в 6 раз, Новосибирск - в 50. В регионах выбор мест для работы не такой большой, скорее всего и зарплата ниже, но у нас даже нет достаточного кол-ва данных, чтобы это проверить. Кажется, что в перспективе нет другого выбора, кроме переезда в Москву или Питер.
Но по ощущениям с 2020 года ситуация стала меняться: появилось очень много предложений с возможностью частичной или полной удаленки.
Кол-во вакансий с возможностью удаленки очень быстро растет и почти сравнялось с вакансиями в офисе.
Популярные технологии
Посмотрим, какие технологии чаще всего встречаются в вакансиях, и какие изменения по ним произошли за последнее время.
Самыми популярными являются базовые навыки: python, sql, git, после них идет big data, deep learning и классический machine learning. Далее - какие-то более узкоспециализированные инструменты, devops и разработка.
Попробуем понять, какие из популярных навыков в каждом направлении Data Science пересекаются между собой. Для этого возьмем по 13 наиболее востребованных технологий у каждой специальности и отобразим их на диаграмме Венна.
Есть несколько популярных технологий, которые можно противопоставить друг другу. Самый простой пример - это R и Python для анализа данных и разработки моделей. Посмотрим, как менялась их популярность по доли упоминаний в вакансиях.
Популярность python растет, и сейчас он упоминается почти в 90% вакансий, то есть де факто владение python - необходимый минимум для любого специалиста в сфере data science. А вот R, наоборот, теряет позиции: на пике в 2017 году он упоминался в 28% вакансий, сейчас в 2021 году - только в 9%. Если вы только вкатываетесь в индустрию, изучать R или выбирать команду, в которой его используют, скорее всего не самое перспективное решение.
Построим теперь аналогичный график для трех основных deep learning фреймворков.
Популярность PyTorch стремительно растет. Он обогнал Keras в 2018 году и TensorFlow в 2020. В целом, знания deep learning становятся более востребованными: указаны в более 30% вакансий в 2021 году.
Keras снижается даже по абсолютному кол-ву вакансий, учитывая, что общий спрос растет. У TensorFlow в этом плане не все так плохо: кол-во вакансий растет, несмотря на то, что доля снижается. Если вы на находитесь в начале своего пути в DL, с карьерной точки зрения, лучше выбрать более востребованный инструмент.
Заключение
По ссылке находится репозиторий со всеми данными и кодом исследования. Можно попробовать поискать новые интересные инсайты в данных или уточнить какие-то выводы этой статьи. Надеюсь, что получилось интересно и познавательно, буду благодарен за обратную связь.
Мой telegram: @borisov_egor
Эта статья является сокращённым пересказом полного исследования с habr.