Поймать момент: почему сейчас самое подходящее время, чтобы освоить data science

Программный директор Академии больших данных MADE в Mail.ru Group Илья Макаров — о том, почему бизнес охотится за специалистами по data science, и как овладеть одной из самых востребованных IT-профессий.

На прошлой неделе мы открыли новый набор на бесплатное обучение в Академию больших данных MADE. В ней IT-специалисты смогут очно или дистанционно за полтора года освоить одну из трех специальностей — data scientist, machine learning engineer или data engineer. Мы расспросили программного директора Академии о том, как он пришел в data science, с чего начинать путь в этой сфере, сколько получает data scientist и чему учат на курсах MADE.

«В data science меня привел интерес ко всему новому и сложному»

Я окончил механико-математический факультет МГУ, моя специализация – математическая логика и теория чисел. Родственники и знакомые часто интересовались, кем я планирую работать с таким дипломом – не деньги ли считать на кассе.

В data science меня привел интерес ко всему новому и сложному: все, что кажется сложным, я всегда воспринимал как вызов, хотелось разобраться, как это работает. Получив диплом, я занялся преподаванием компьютерных дисциплин и высшей математики, а через год стал заместителем руководителя департамента анализа данных и искусственного интеллекта НИУ ВШЭ.

Меня тогда особенно интересовало применение искусственного интеллекта в играх. Движок Unreal Engine только-только стал бесплатным, и появились возможности для создания крутых игр и проведения игрового теста Тьюринга. Было интересно оценить, насколько NPC могут быть неотличимы от реальных игроков. Мы с коллегами экспериментировали как с классическими методами дискретной оптимизации (построение навигационных карт, интеллектуальное перемещение), так и с нейронными сетями (выбор оружия, оценка позиции для определения командной тактики в шутерах от первого лица).

В это же время стало известно о первых успехах обучения с подкреплением в Doom и Atari: они подтверждали, что искусственный интеллект способен превосходить человека в решении типовых задач даже в сложноустроенных окружениях.

Сегодня мы занимаемся практически всем: от текстов до голосовых помощников, от анализа изображений до обработки видео, активно изучаем индустриальное машинное обучение и возможные способы его применения.

Даже большие затраты на data science окупаются для бизнеса

Одна из причин, по которой специалисты в области data science вдруг стали так нужны компаниям, – цифровая трансформация. Цифровизация бизнес-процессов позволяет сокращать издержки, выявлять узкие места, предсказывать перспективность тех или иных направлений, персонализировать работу с клиентами и много чего еще. Все это делает бизнес конкурентным по сравнению с компаниями, которые работают по отлаженной схеме.

Даже большие затраты на разработку моделей и методов интеллектуальной обработки данных окупаются прибылью от их внедрения, несмотря на высокие зарплаты в отрасли и большой спрос на специалистов.

По мнению экспертов The Boston Consulting Group, в этой гонке победят компании, которые не просто проведут цифровую трансформацию, а сделают это быстрее других. Именно для этого бизнесу и нужны data scientists.

Навык работы с данными — это новый английский

Все мы видим активное развитие дистанционных услуг на фоне пандемии. Уже давно растет использование ИИ в медицине для предоставления персональных рекомендаций по лечению. ИИ применяется в науке о материалах для предсказания сплавов и их свойств, синтеза новых веществ. В сельском хозяйстве ожидается максимальная автоматизация производства, на фабриках и заводах используют индустриальное машинное обучение для оптимизации химических процессов, предсказаний поломок и контроля качества продукции.

ИИ востребован в пока далеких, но перспективных направлениях, влияющих на наше будущее: в квантовой физике, виртуальной реальности и когнитивных технологиях.

Навык работы с данными и прототипирование на Python сейчас становится чем-то сродни изучению английского в школе лет 20 назад – все к этому стремятся. Статистическая обработка данных вместе с предиктивной аналитикой позволяют не только анализировать отдельные бизнес-процессы, но и иметь объективные границы предсказаний и возможностей принимать решения на основе данных, а это ключевое преимущество крупных компаний в борьбе за быстрорастущие рынки.

Я смотрю на data science как на новую цифровую грамотность: скоро для работы в IT-компании это станет таким же базовым навыком, как умение работать с Microsoft Office.

Выпустить универсальные учебники по data science невозможно – они устаревают быстрее, чем их успевают издать

В мое время было гораздо меньше онлайн ресурсов, таких как Coursera, Udacity, DataCamp. Меня выручали подробные подборки материалов по теме и туториалы по фреймворкам для работы с данными. Сейчас data science развивается в буквальном смысле на наших глазах. Написать какие-то учебники просто невозможно – они устаревают быстрее, чем их успевают издать.

Еще одна сложность, которая повышает порог вхождения — недостаток материалов на русском.

Одна из немногих работ — могу ее посоветовать всем, кто хочет погрузиться в тему — бестселлер «Глубокое обучение» Сергея Николенко, который, кстати, преподает в Академии больших данных MADE. А чтобы держать руку на пульсе, можно изучать доклады с топовых конференций: именно там публикуются самые свежие идеи. Часто что-то стоящее можно найти в препринтах на на arXiv.org. Много материалов для начинающих есть на канале «Технострим».

Еще для освоения машинного обучения понадобится освежить теоретические и практические основы теории вероятностей, математической статистики, теории оптимизации и линейной алгебры.

Зарплатный потолок в data science выше, чем в разработке — но до него еще нужно добраться

Будучи относительно новым направлением, data science обрастает мифами. Вот некоторые из них.

  • Миф № 1. ИИ-специалист, и в частности data scientist — это человек, который делает Терминатора

Приверженцы этого мифа убеждены, что нас всех следует сжечь (вместе с вышками 5G). Могу успокоить: до появления общего искусственного интеллекта, подобного человеческому, еще очень далеко. Сейчас работа идет в области реализации конкретных кейсов, которые делают жизнь компаний и людей проще. А вот вероятность Матрицы в пост-коронавирусный период увеличилась.

  • Миф № 2. Data science — это легко: главное — освоить шаблон действий

Часто люди думают, что достаточно сконструировать нейронную сеть (а можно вообще взять готовую), векторизовать данные, задать функцию потерь, запустить оптимизатор, дождаться завершения процесса обучения – и модель готова. Это заблуждение особенно распространено среди тех, кто прошел базовый онлайн-курс, где было достаточно вставить нужную строчку кода в правильное место.

На практике такие модели почти никогда не работают — к тому же непонятно, что с ними делать дальше. Часто в таких случаях специалисты идут по пути наименьшего сопротивления: не получилось с этим проектом — бросают его и переключаются на новую задачу. В среде разработчиков подобное считается дурным тоном, а для специалистов по data science, к сожалению, это распространенная история.

Нет учебника и нет универсальной методологии по созданию нейросети, которая покажет точность 99,99% и будет устраивать всех. Чтобы руководить проектами в области data science, необходимы знания основ высшей математики и статистической теории обучения, умения критически мыслить и быстро анализировать новые подходы, развитые навыки разработки и быстрого прототипирования.

  • Миф № 3. Data scientist получает 300к в секунду

В ряде компаний data scientist уровня senior может получать вдвое больше, чем опытный разработчик. Профессионал высокого класса, который способен тянуть несколько команд и при этом еще писать код, может иметь и более высокую зарплату. Но для того, чтобы добраться до такого уровня, нужно несколько лет опыта в этой области. У junior-специалистов ставки будут ниже.

Опытный middle-разработчик, который хочет перейти в data science, окажется в роли junior-специалиста — и, скорее всего, первое время будет получать меньше, чем раньше. Но при этом зарплатный потолок в data science гораздо выше, чем в разработке: часть задач в этой сфере требует креативного подхода, ведь стандартных решений пока не существует.

Стать data scientist за полтора года: миссия выполнима

Навыки работы с данными и прототипирования на Python становятся новым английским. Все больше компаний внедряют data-driven подход, и я склонен рассматривать владение основами data science как необходимость для всех IT-специалистов (как впрочем и для социальных и гуманитарных специальностей и других профессий, которые могут быть связаны с обработкой данных в широком смысле).

Специалисты по data science востребованы в в IT, в банковской сфере, в медицине и образовании, сельском хозяйстве, ритейле и телекоммуникациях. И этот список постоянно пополняется, так что спрос будет только расти. В Mail.ru Group, например, в каждом бизнес-подразделении есть команда, которая занимается data science.

Многие из тех, кто заинтересован в развитии в data science и уже самостоятельно сделал шаги в этом направлении, хотят углубить свои компетенции и привести их в соответствие с требованиями компаний.

Академия больших данных MADE рассчитана на IT-специалистов с опытом 1-3 года. Мы ждем слушателей, которые готовы работать над сложными проектами и интегрировать их в бизнес-процессы компании. Три основных принципа Академии:

  1. Все теоретические знания подкрепляются практикой. Студенты знают, как реализовать каждый изучаемый метод и как его применить на конкретных данных.

  2. Ориентированность на результат. Каждая дисциплина образовательной программы соответствует тому или иному требованию для позиции data scientist. Выпускники Академии получают в точности тот багаж знаний, который нужен для прохождения собеседований и работы по специальности: все нужное и ничего лишнего.

  3. Проектная работа. Это работа над реальными кейсами с менторами из Mail.ru Group, других крупнейших технологических компаний и лучших российских вузов. Выпускники покидают Академию с готовым проектом в портфолио.

Программа построена таким образом, чтобы обучение можно было совмещать с работой – оно занимает 15–30 часов в неделю. У MADE есть и офлайн-, и онлайн-формат — можно смотреть лекции из любой точки мира.

В прошлом году на очное обучение в Академию конкурс был 10 человек на место, на дистанционное — 32 человека на место. Мы приняли 200 студентов, но даже среди тех, кто прошел жесткий вступительный отбор, первую сессию смогли сдать не все: сейчас на первом потоке учатся 160 человек.

В MADE непросто: у нас есть менторы, они готовы помочь, но они не понесут студента на руках, если тот решит расслабиться. До конца дойдет не каждый — но те, кто сможет это сделать, получат полный набор скиллов в data science, которые востребованы на рынке.

Через полтора года наши выпускники могут претендовать на позицию data scientist, data engineer или machine learning engineer (в зависимости от выбранной специализации) в компании из любой сферы. Некоторые студенты первого потока нашей Академии, еще не закончив обучение, уже получили офферы — они работают в банках, телекоммуникационных, e-commerce- и других компаниях.

Обучение в Академии больших данных MADE бесплатное. Чтобы поступить, нужно пройти вступительные испытания. Их четыре: два онлайн-теста – по математике и программированию (на знание высшей математики и навыки программирования на С++, Java или Python), соревнование по машинному обучению и онлайн-собеседование. Заявки на обучение в Академии MADE принимаются до 1 августа.

Чем должен владеть data scientist

· Теория вероятностей

· Математическая статистика

· Теория оптимизации

· Линейная алгебра

· Высшая математика

· Статистическая теория обучения

· Разработка

0
58 комментариев
Написать комментарий...
Vlad Kulikov

Почему СЕЙЧАС самое подходящее время, чтобы освоить data science – не понял 

Ответить
Развернуть ветку
Юрий Б.

Тогда вам это не нужно. Наверное.

Ответить
Развернуть ветку
VK
Автор

Грубовато, но по сути )))

Ответить
Развернуть ветку
Vlad Kulikov

По сути ожидал получить ответ программного директора академии больших данных MADE в Mail.ru Group Ильи Макарова (это же надо было так должность назвать) Смайл-смайл

Ответить
Развернуть ветку
55 комментариев
Раскрывать всегда