Поймать момент: почему сейчас самое подходящее время, чтобы освоить data science

Программный директор Академии больших данных MADE в Mail.ru Group Илья Макаров — о том, почему бизнес охотится за специалистами по data science, и как овладеть одной из самых востребованных IT-профессий.

На прошлой неделе мы открыли новый набор на бесплатное обучение в Академию больших данных MADE. В ней IT-специалисты смогут очно или дистанционно за полтора года освоить одну из трех специальностей — data scientist, machine learning engineer или data engineer. Мы расспросили программного директора Академии о том, как он пришел в data science, с чего начинать путь в этой сфере, сколько получает data scientist и чему учат на курсах MADE.

Поймать момент: почему сейчас самое подходящее время, чтобы освоить data science

«В data science меня привел интерес ко всему новому и сложному»

Я окончил механико-математический факультет МГУ, моя специализация – математическая логика и теория чисел. Родственники и знакомые часто интересовались, кем я планирую работать с таким дипломом – не деньги ли считать на кассе.

В data science меня привел интерес ко всему новому и сложному: все, что кажется сложным, я всегда воспринимал как вызов, хотелось разобраться, как это работает. Получив диплом, я занялся преподаванием компьютерных дисциплин и высшей математики, а через год стал заместителем руководителя департамента анализа данных и искусственного интеллекта НИУ ВШЭ.

Меня тогда особенно интересовало применение искусственного интеллекта в играх. Движок Unreal Engine только-только стал бесплатным, и появились возможности для создания крутых игр и проведения игрового теста Тьюринга. Было интересно оценить, насколько NPC могут быть неотличимы от реальных игроков. Мы с коллегами экспериментировали как с классическими методами дискретной оптимизации (построение навигационных карт, интеллектуальное перемещение), так и с нейронными сетями (выбор оружия, оценка позиции для определения командной тактики в шутерах от первого лица).

В это же время стало известно о первых успехах обучения с подкреплением в Doom и Atari: они подтверждали, что искусственный интеллект способен превосходить человека в решении типовых задач даже в сложноустроенных окружениях.

Сегодня мы занимаемся практически всем: от текстов до голосовых помощников, от анализа изображений до обработки видео, активно изучаем индустриальное машинное обучение и возможные способы его применения.

Даже большие затраты на data science окупаются для бизнеса

Одна из причин, по которой специалисты в области data science вдруг стали так нужны компаниям, – цифровая трансформация. Цифровизация бизнес-процессов позволяет сокращать издержки, выявлять узкие места, предсказывать перспективность тех или иных направлений, персонализировать работу с клиентами и много чего еще. Все это делает бизнес конкурентным по сравнению с компаниями, которые работают по отлаженной схеме.

Даже большие затраты на разработку моделей и методов интеллектуальной обработки данных окупаются прибылью от их внедрения, несмотря на высокие зарплаты в отрасли и большой спрос на специалистов.

По мнению экспертов The Boston Consulting Group, в этой гонке победят компании, которые не просто проведут цифровую трансформацию, а сделают это быстрее других. Именно для этого бизнесу и нужны data scientists.

Навык работы с данными — это новый английский

Все мы видим активное развитие дистанционных услуг на фоне пандемии. Уже давно растет использование ИИ в медицине для предоставления персональных рекомендаций по лечению. ИИ применяется в науке о материалах для предсказания сплавов и их свойств, синтеза новых веществ. В сельском хозяйстве ожидается максимальная автоматизация производства, на фабриках и заводах используют индустриальное машинное обучение для оптимизации химических процессов, предсказаний поломок и контроля качества продукции.

ИИ востребован в пока далеких, но перспективных направлениях, влияющих на наше будущее: в квантовой физике, виртуальной реальности и когнитивных технологиях.

Навык работы с данными и прототипирование на Python сейчас становится чем-то сродни изучению английского в школе лет 20 назад – все к этому стремятся. Статистическая обработка данных вместе с предиктивной аналитикой позволяют не только анализировать отдельные бизнес-процессы, но и иметь объективные границы предсказаний и возможностей принимать решения на основе данных, а это ключевое преимущество крупных компаний в борьбе за быстрорастущие рынки.

Я смотрю на data science как на новую цифровую грамотность: скоро для работы в IT-компании это станет таким же базовым навыком, как умение работать с Microsoft Office.

Выпустить универсальные учебники по data science невозможно – они устаревают быстрее, чем их успевают издать

В мое время было гораздо меньше онлайн ресурсов, таких как Coursera, Udacity, DataCamp. Меня выручали подробные подборки материалов по теме и туториалы по фреймворкам для работы с данными. Сейчас data science развивается в буквальном смысле на наших глазах. Написать какие-то учебники просто невозможно – они устаревают быстрее, чем их успевают издать.

Еще одна сложность, которая повышает порог вхождения — недостаток материалов на русском.

Одна из немногих работ — могу ее посоветовать всем, кто хочет погрузиться в тему — бестселлер «Глубокое обучение» Сергея Николенко, который, кстати, преподает в Академии больших данных MADE. А чтобы держать руку на пульсе, можно изучать доклады с топовых конференций: именно там публикуются самые свежие идеи. Часто что-то стоящее можно найти в препринтах на на arXiv.org. Много материалов для начинающих есть на канале «Технострим».

Еще для освоения машинного обучения понадобится освежить теоретические и практические основы теории вероятностей, математической статистики, теории оптимизации и линейной алгебры.

Зарплатный потолок в data science выше, чем в разработке — но до него еще нужно добраться

Будучи относительно новым направлением, data science обрастает мифами. Вот некоторые из них.

  • Миф № 1. ИИ-специалист, и в частности data scientist — это человек, который делает Терминатора

Приверженцы этого мифа убеждены, что нас всех следует сжечь (вместе с вышками 5G). Могу успокоить: до появления общего искусственного интеллекта, подобного человеческому, еще очень далеко. Сейчас работа идет в области реализации конкретных кейсов, которые делают жизнь компаний и людей проще. А вот вероятность Матрицы в пост-коронавирусный период увеличилась.

  • Миф № 2. Data science — это легко: главное — освоить шаблон действий

Часто люди думают, что достаточно сконструировать нейронную сеть (а можно вообще взять готовую), векторизовать данные, задать функцию потерь, запустить оптимизатор, дождаться завершения процесса обучения – и модель готова. Это заблуждение особенно распространено среди тех, кто прошел базовый онлайн-курс, где было достаточно вставить нужную строчку кода в правильное место.

На практике такие модели почти никогда не работают — к тому же непонятно, что с ними делать дальше. Часто в таких случаях специалисты идут по пути наименьшего сопротивления: не получилось с этим проектом — бросают его и переключаются на новую задачу. В среде разработчиков подобное считается дурным тоном, а для специалистов по data science, к сожалению, это распространенная история.

Нет учебника и нет универсальной методологии по созданию нейросети, которая покажет точность 99,99% и будет устраивать всех. Чтобы руководить проектами в области data science, необходимы знания основ высшей математики и статистической теории обучения, умения критически мыслить и быстро анализировать новые подходы, развитые навыки разработки и быстрого прототипирования.

  • Миф № 3. Data scientist получает 300к в секунду

В ряде компаний data scientist уровня senior может получать вдвое больше, чем опытный разработчик. Профессионал высокого класса, который способен тянуть несколько команд и при этом еще писать код, может иметь и более высокую зарплату. Но для того, чтобы добраться до такого уровня, нужно несколько лет опыта в этой области. У junior-специалистов ставки будут ниже.

Опытный middle-разработчик, который хочет перейти в data science, окажется в роли junior-специалиста — и, скорее всего, первое время будет получать меньше, чем раньше. Но при этом зарплатный потолок в data science гораздо выше, чем в разработке: часть задач в этой сфере требует креативного подхода, ведь стандартных решений пока не существует.

Стать data scientist за полтора года: миссия выполнима

Навыки работы с данными и прототипирования на Python становятся новым английским. Все больше компаний внедряют data-driven подход, и я склонен рассматривать владение основами data science как необходимость для всех IT-специалистов (как впрочем и для социальных и гуманитарных специальностей и других профессий, которые могут быть связаны с обработкой данных в широком смысле).

Специалисты по data science востребованы в в IT, в банковской сфере, в медицине и образовании, сельском хозяйстве, ритейле и телекоммуникациях. И этот список постоянно пополняется, так что спрос будет только расти. В Mail.ru Group, например, в каждом бизнес-подразделении есть команда, которая занимается data science.

Многие из тех, кто заинтересован в развитии в data science и уже самостоятельно сделал шаги в этом направлении, хотят углубить свои компетенции и привести их в соответствие с требованиями компаний.

Академия больших данных MADE рассчитана на IT-специалистов с опытом 1-3 года. Мы ждем слушателей, которые готовы работать над сложными проектами и интегрировать их в бизнес-процессы компании. Три основных принципа Академии:

  1. Все теоретические знания подкрепляются практикой. Студенты знают, как реализовать каждый изучаемый метод и как его применить на конкретных данных.

  2. Ориентированность на результат. Каждая дисциплина образовательной программы соответствует тому или иному требованию для позиции data scientist. Выпускники Академии получают в точности тот багаж знаний, который нужен для прохождения собеседований и работы по специальности: все нужное и ничего лишнего.

  3. Проектная работа. Это работа над реальными кейсами с менторами из Mail.ru Group, других крупнейших технологических компаний и лучших российских вузов. Выпускники покидают Академию с готовым проектом в портфолио.

Программа построена таким образом, чтобы обучение можно было совмещать с работой – оно занимает 15–30 часов в неделю. У MADE есть и офлайн-, и онлайн-формат — можно смотреть лекции из любой точки мира.

В прошлом году на очное обучение в Академию конкурс был 10 человек на место, на дистанционное — 32 человека на место. Мы приняли 200 студентов, но даже среди тех, кто прошел жесткий вступительный отбор, первую сессию смогли сдать не все: сейчас на первом потоке учатся 160 человек.

В MADE непросто: у нас есть менторы, они готовы помочь, но они не понесут студента на руках, если тот решит расслабиться. До конца дойдет не каждый — но те, кто сможет это сделать, получат полный набор скиллов в data science, которые востребованы на рынке.

Через полтора года наши выпускники могут претендовать на позицию data scientist, data engineer или machine learning engineer (в зависимости от выбранной специализации) в компании из любой сферы. Некоторые студенты первого потока нашей Академии, еще не закончив обучение, уже получили офферы — они работают в банках, телекоммуникационных, e-commerce- и других компаниях.

Обучение в Академии больших данных MADE бесплатное. Чтобы поступить, нужно пройти вступительные испытания. Их четыре: два онлайн-теста – по математике и программированию (на знание высшей математики и навыки программирования на С++, Java или Python), соревнование по машинному обучению и онлайн-собеседование. Заявки на обучение в Академии MADE принимаются до 1 августа.

Чем должен владеть data scientist

· Теория вероятностей

· Математическая статистика

· Теория оптимизации

· Линейная алгебра

· Высшая математика

· Статистическая теория обучения

· Разработка

2626
58 комментариев

У меня одного чувство, что о дата-сайентистах сейчас из каждого утюга верещат? Ох и нажрётся сейчас инфобизнес...

15
Ответить

Ещё год назад хайпа было ещё больше. Но главного мало кто говорит - без мат. вышки вы никогда не станете дата сайентистом.

22
Ответить

Самое главное, как обычно никто не говорит, что это все можно выучить самостоятельно

7
Ответить

"слышь, купи курс"

10
Ответить
Автор
14
Ответить
Автор
3
Ответить

Не понимаю, зачем дата инженеру диффуры, пределы, соревнования по машинному обучению. Чистить данные, сливать их, месить, упорядочивать, для этого не нужны диффуры. Я математик-программист по образованию, у меня была вышка, линейная алгебра, дискретная математика, и диффуры были, популяция зайцев и волков на матлабе, будь они неладны, вместе с точками бифуркации и аттракторами, я прошла всю специализацию курсеры от Яндекса по машобучению и анализу данных, но я открыла пример теста по вышке в эту Академию и не поняла - зачем все это... Ребята, тот, кто сходу решит эти задачи - ему реально не нужна никакая академия, у него все норм. А если вы это можете решить, но вам все равно нужна академия - то вы что-то просто неправильно делаете. И академия не поможет. Это какая-то другая проблема.

6
Ответить