Поймать момент: почему сейчас самое подходящее время, чтобы освоить data science

Программный директор Академии больших данных MADE в Mail.ru Group Илья Макаров — о том, почему бизнес охотится за специалистами по data science, и как овладеть одной из самых востребованных IT-профессий.

На прошлой неделе мы открыли новый набор на бесплатное обучение в Академию больших данных MADE. В ней IT-специалисты смогут очно или дистанционно за полтора года освоить одну из трех специальностей — data scientist, machine learning engineer или data engineer. Мы расспросили программного директора Академии о том, как он пришел в data science, с чего начинать путь в этой сфере, сколько получает data scientist и чему учат на курсах MADE.

«В data science меня привел интерес ко всему новому и сложному»

Я окончил механико-математический факультет МГУ, моя специализация – математическая логика и теория чисел. Родственники и знакомые часто интересовались, кем я планирую работать с таким дипломом – не деньги ли считать на кассе.

В data science меня привел интерес ко всему новому и сложному: все, что кажется сложным, я всегда воспринимал как вызов, хотелось разобраться, как это работает. Получив диплом, я занялся преподаванием компьютерных дисциплин и высшей математики, а через год стал заместителем руководителя департамента анализа данных и искусственного интеллекта НИУ ВШЭ.

Меня тогда особенно интересовало применение искусственного интеллекта в играх. Движок Unreal Engine только-только стал бесплатным, и появились возможности для создания крутых игр и проведения игрового теста Тьюринга. Было интересно оценить, насколько NPC могут быть неотличимы от реальных игроков. Мы с коллегами экспериментировали как с классическими методами дискретной оптимизации (построение навигационных карт, интеллектуальное перемещение), так и с нейронными сетями (выбор оружия, оценка позиции для определения командной тактики в шутерах от первого лица).

В это же время стало известно о первых успехах обучения с подкреплением в Doom и Atari: они подтверждали, что искусственный интеллект способен превосходить человека в решении типовых задач даже в сложноустроенных окружениях.

Сегодня мы занимаемся практически всем: от текстов до голосовых помощников, от анализа изображений до обработки видео, активно изучаем индустриальное машинное обучение и возможные способы его применения.

Даже большие затраты на data science окупаются для бизнеса

Одна из причин, по которой специалисты в области data science вдруг стали так нужны компаниям, – цифровая трансформация. Цифровизация бизнес-процессов позволяет сокращать издержки, выявлять узкие места, предсказывать перспективность тех или иных направлений, персонализировать работу с клиентами и много чего еще. Все это делает бизнес конкурентным по сравнению с компаниями, которые работают по отлаженной схеме.

Даже большие затраты на разработку моделей и методов интеллектуальной обработки данных окупаются прибылью от их внедрения, несмотря на высокие зарплаты в отрасли и большой спрос на специалистов.

По мнению экспертов The Boston Consulting Group, в этой гонке победят компании, которые не просто проведут цифровую трансформацию, а сделают это быстрее других. Именно для этого бизнесу и нужны data scientists.

Навык работы с данными — это новый английский

Все мы видим активное развитие дистанционных услуг на фоне пандемии. Уже давно растет использование ИИ в медицине для предоставления персональных рекомендаций по лечению. ИИ применяется в науке о материалах для предсказания сплавов и их свойств, синтеза новых веществ. В сельском хозяйстве ожидается максимальная автоматизация производства, на фабриках и заводах используют индустриальное машинное обучение для оптимизации химических процессов, предсказаний поломок и контроля качества продукции.

ИИ востребован в пока далеких, но перспективных направлениях, влияющих на наше будущее: в квантовой физике, виртуальной реальности и когнитивных технологиях.

Навык работы с данными и прототипирование на Python сейчас становится чем-то сродни изучению английского в школе лет 20 назад – все к этому стремятся. Статистическая обработка данных вместе с предиктивной аналитикой позволяют не только анализировать отдельные бизнес-процессы, но и иметь объективные границы предсказаний и возможностей принимать решения на основе данных, а это ключевое преимущество крупных компаний в борьбе за быстрорастущие рынки.

Я смотрю на data science как на новую цифровую грамотность: скоро для работы в IT-компании это станет таким же базовым навыком, как умение работать с Microsoft Office.

Выпустить универсальные учебники по data science невозможно – они устаревают быстрее, чем их успевают издать

В мое время было гораздо меньше онлайн ресурсов, таких как Coursera, Udacity, DataCamp. Меня выручали подробные подборки материалов по теме и туториалы по фреймворкам для работы с данными. Сейчас data science развивается в буквальном смысле на наших глазах. Написать какие-то учебники просто невозможно – они устаревают быстрее, чем их успевают издать.

Еще одна сложность, которая повышает порог вхождения — недостаток материалов на русском.

Одна из немногих работ — могу ее посоветовать всем, кто хочет погрузиться в тему — бестселлер «Глубокое обучение» Сергея Николенко, который, кстати, преподает в Академии больших данных MADE. А чтобы держать руку на пульсе, можно изучать доклады с топовых конференций: именно там публикуются самые свежие идеи. Часто что-то стоящее можно найти в препринтах на на arXiv.org. Много материалов для начинающих есть на канале «Технострим».

Еще для освоения машинного обучения понадобится освежить теоретические и практические основы теории вероятностей, математической статистики, теории оптимизации и линейной алгебры.

Зарплатный потолок в data science выше, чем в разработке — но до него еще нужно добраться

Будучи относительно новым направлением, data science обрастает мифами. Вот некоторые из них.

  • Миф № 1. ИИ-специалист, и в частности data scientist — это человек, который делает Терминатора

Приверженцы этого мифа убеждены, что нас всех следует сжечь (вместе с вышками 5G). Могу успокоить: до появления общего искусственного интеллекта, подобного человеческому, еще очень далеко. Сейчас работа идет в области реализации конкретных кейсов, которые делают жизнь компаний и людей проще. А вот вероятность Матрицы в пост-коронавирусный период увеличилась.

  • Миф № 2. Data science — это легко: главное — освоить шаблон действий

Часто люди думают, что достаточно сконструировать нейронную сеть (а можно вообще взять готовую), векторизовать данные, задать функцию потерь, запустить оптимизатор, дождаться завершения процесса обучения – и модель готова. Это заблуждение особенно распространено среди тех, кто прошел базовый онлайн-курс, где было достаточно вставить нужную строчку кода в правильное место.

На практике такие модели почти никогда не работают — к тому же непонятно, что с ними делать дальше. Часто в таких случаях специалисты идут по пути наименьшего сопротивления: не получилось с этим проектом — бросают его и переключаются на новую задачу. В среде разработчиков подобное считается дурным тоном, а для специалистов по data science, к сожалению, это распространенная история.

Нет учебника и нет универсальной методологии по созданию нейросети, которая покажет точность 99,99% и будет устраивать всех. Чтобы руководить проектами в области data science, необходимы знания основ высшей математики и статистической теории обучения, умения критически мыслить и быстро анализировать новые подходы, развитые навыки разработки и быстрого прототипирования.

  • Миф № 3. Data scientist получает 300к в секунду

В ряде компаний data scientist уровня senior может получать вдвое больше, чем опытный разработчик. Профессионал высокого класса, который способен тянуть несколько команд и при этом еще писать код, может иметь и более высокую зарплату. Но для того, чтобы добраться до такого уровня, нужно несколько лет опыта в этой области. У junior-специалистов ставки будут ниже.

Опытный middle-разработчик, который хочет перейти в data science, окажется в роли junior-специалиста — и, скорее всего, первое время будет получать меньше, чем раньше. Но при этом зарплатный потолок в data science гораздо выше, чем в разработке: часть задач в этой сфере требует креативного подхода, ведь стандартных решений пока не существует.

Стать data scientist за полтора года: миссия выполнима

Навыки работы с данными и прототипирования на Python становятся новым английским. Все больше компаний внедряют data-driven подход, и я склонен рассматривать владение основами data science как необходимость для всех IT-специалистов (как впрочем и для социальных и гуманитарных специальностей и других профессий, которые могут быть связаны с обработкой данных в широком смысле).

Специалисты по data science востребованы в в IT, в банковской сфере, в медицине и образовании, сельском хозяйстве, ритейле и телекоммуникациях. И этот список постоянно пополняется, так что спрос будет только расти. В Mail.ru Group, например, в каждом бизнес-подразделении есть команда, которая занимается data science.

Многие из тех, кто заинтересован в развитии в data science и уже самостоятельно сделал шаги в этом направлении, хотят углубить свои компетенции и привести их в соответствие с требованиями компаний.

Академия больших данных MADE рассчитана на IT-специалистов с опытом 1-3 года. Мы ждем слушателей, которые готовы работать над сложными проектами и интегрировать их в бизнес-процессы компании. Три основных принципа Академии:

  1. Все теоретические знания подкрепляются практикой. Студенты знают, как реализовать каждый изучаемый метод и как его применить на конкретных данных.

  2. Ориентированность на результат. Каждая дисциплина образовательной программы соответствует тому или иному требованию для позиции data scientist. Выпускники Академии получают в точности тот багаж знаний, который нужен для прохождения собеседований и работы по специальности: все нужное и ничего лишнего.

  3. Проектная работа. Это работа над реальными кейсами с менторами из Mail.ru Group, других крупнейших технологических компаний и лучших российских вузов. Выпускники покидают Академию с готовым проектом в портфолио.

Программа построена таким образом, чтобы обучение можно было совмещать с работой – оно занимает 15–30 часов в неделю. У MADE есть и офлайн-, и онлайн-формат — можно смотреть лекции из любой точки мира.

В прошлом году на очное обучение в Академию конкурс был 10 человек на место, на дистанционное — 32 человека на место. Мы приняли 200 студентов, но даже среди тех, кто прошел жесткий вступительный отбор, первую сессию смогли сдать не все: сейчас на первом потоке учатся 160 человек.

В MADE непросто: у нас есть менторы, они готовы помочь, но они не понесут студента на руках, если тот решит расслабиться. До конца дойдет не каждый — но те, кто сможет это сделать, получат полный набор скиллов в data science, которые востребованы на рынке.

Через полтора года наши выпускники могут претендовать на позицию data scientist, data engineer или machine learning engineer (в зависимости от выбранной специализации) в компании из любой сферы. Некоторые студенты первого потока нашей Академии, еще не закончив обучение, уже получили офферы — они работают в банках, телекоммуникационных, e-commerce- и других компаниях.

Обучение в Академии больших данных MADE бесплатное. Чтобы поступить, нужно пройти вступительные испытания. Их четыре: два онлайн-теста – по математике и программированию (на знание высшей математики и навыки программирования на С++, Java или Python), соревнование по машинному обучению и онлайн-собеседование. Заявки на обучение в Академии MADE принимаются до 1 августа.

Чем должен владеть data scientist

· Теория вероятностей

· Математическая статистика

· Теория оптимизации

· Линейная алгебра

· Высшая математика

· Статистическая теория обучения

· Разработка

0
58 комментариев
Написать комментарий...
Василий Туркин

У меня одного чувство, что о дата-сайентистах сейчас из каждого утюга верещат? Ох и нажрётся сейчас инфобизнес...

Ответить
Развернуть ветку
Anton Smets

Ещё год назад хайпа было ещё больше. Но главного мало кто говорит - без мат. вышки вы никогда не станете дата сайентистом.

Ответить
Развернуть ветку
9 комментариев
Алексей Смолярчук

Самое главное, как обычно никто не говорит, что это все можно выучить самостоятельно

Ответить
Развернуть ветку
10 комментариев
Anatol Seibel

"слышь, купи курс"

Ответить
Развернуть ветку
VK
Автор
Ответить
Развернуть ветку
1 комментарий
VK
Автор
Ответить
Развернуть ветку
Mercator

Не понимаю, зачем дата инженеру диффуры, пределы, соревнования по машинному обучению. Чистить данные, сливать их, месить, упорядочивать, для этого не нужны диффуры. Я математик-программист по образованию, у меня была вышка, линейная алгебра, дискретная математика, и диффуры были, популяция зайцев и волков на матлабе, будь они неладны, вместе с точками бифуркации и аттракторами, я прошла всю специализацию курсеры от Яндекса по машобучению и анализу данных, но я открыла пример теста по вышке в эту Академию и не поняла - зачем все это... Ребята, тот, кто сходу решит эти задачи - ему реально не нужна никакая академия, у него все норм. А если вы это можете решить, но вам все равно нужна академия - то вы что-то просто неправильно делаете. И академия не поможет. Это какая-то другая проблема.

Ответить
Развернуть ветку
Roman Li

+100500
На практике большая часть матана не нужна.
Но нужно как-то отфильтровать желающих.

P.S. Mail.ru опубликуйте, пожалуйста, какие-нибудь метрики по эффективности отбора. Желательно, конечно, результаты A/B теста :trollface:

Ответить
Развернуть ветку
1 комментарий
Vlad Kulikov

Почему СЕЙЧАС самое подходящее время, чтобы освоить data science – не понял 

Ответить
Развернуть ветку
Maxim Syabro
 Лучшее время, чтобы посадить дерево, было 20 лет назад. Следующее лучшее время – сегодня.

Но майловцам продавать курсы нужно, поэтому тут статья

Ответить
Развернуть ветку
1 комментарий
Юрий Б.

Тогда вам это не нужно. Наверное.

Ответить
Развернуть ветку
2 комментария
Max Solovev

Потому что им надо продать больше. Потому что реклама такая реклама

Ответить
Развернуть ветку
Эмилия Теплова

В чём профит для учащихся? Они не смогли самостоятельно и готовы тратить время чтобы потом их пристроили на какой-нибудь скромный чек?

Но странный тогда таргетинг. Судя по вступительным.

 Их четыре: два онлайн-теста – по математике и программированию (на знание высшей математики и навыки программирования на С++, Java или Python), соревнование по машинному обучению и онлайн-собеседование.

Звучит так, что кандидат легко устроится даже с такими умениями в условный сбербанк легко. Так что ему даст мейл?

( я не для себя, если что, трудоустроена 👌)

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
VK
Автор

Чёткая программа обучения, поддержка ментора и работа над реальными кейсами дадут лучший результат, чем самостоятельное изучение. 
Профит для учащихся — знания и навыки. 
Инвестировать в них своё время или нет, каждый решает сам для себя. 

Ответить
Развернуть ветку
Анатолий Ягов

@VK Будет ли более подробная информация по каким темам (особенно по математике) будет вступительный экзамен? Или вот оно и есть:
· Теория вероятностей
· Математическая статистика
· Теория оптимизации
· Линейная алгебра
· Высшая математика
· Статистическая теория обучения
· Разработка?

Ответить
Развернуть ветку
Mercator

Я поражаюсь. Люди интересуются дата сайенс. Зайдите на сайт! Там есть список тем, список книг, пример заданий. Для начала хотя бы.

Ответить
Развернуть ветку
2 комментария
Эмилия Теплова

Кстати,

 почему бизнес охотится за специалистами по data science

Сложилось абсолютно противоположное мнение. Увы, никому не нужны. Для этого необходимо больше компетенций у руководства, а с этим дефицит. Все хотят аналитиков (низкий чек) или программистов (нужна борода).

Может конечно ситуация поменяется, но пока в РФ с этим туго. А может так и должно быть.

Ответить
Развернуть ветку
VK
Автор

Можем ответить так: https://team.mail.ru/vacancy/?specialty=&town=&tag=&search=Data =)

Ответить
Развернуть ветку
2 комментария
Bulat Ziganshin

по моим ощущением, в яндекс сатанистов набирают столько же, сколько разрабов

Ответить
Развернуть ветку
1 комментарий
Андрей Владимиров

Data scientist – хорошая профессия! Надо же кому-то перелопачивать терабайты данных, собранных для товарища майора по закону Яровой. И работодатель отличный!

Ответить
Развернуть ветку
Max Solovev

Натуре

Ответить
Развернуть ветку
Василий Петров

Не думаю, что сюда стоит идти только потому, что профессия "востребована". Еще долгое время будет востребованы именно бекенд, фроентенд разработчки разных мастей, чтобы пилить разный ентерпрайз, мобильные приложения, девопсы и т.п.

Далеко не всем бизнесам нужен data scientist, и уж тем более штат data scientist не резиновый. Их не нужно дестяки. Хватит двух работяг, рандомно подбирающих коэффициенты. 

На мой взгляд, в этой области может преуспеть только человек, которому это искренне интересно. Кто хочет тут расти, и развиваться. С точки зрения заработка - это так себе история. По крайней мере пока что.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Yan

Интересно когда рынок ими насытиться) Их не так много много, но больше пафоса.

При этом если посмотреть какие то вещи, которыми занимаются, то не всегда они в реальности хороши их теории.

Ответить
Развернуть ветку
Denis Krivonosov

del.

Ответить
Развернуть ветку
Anderson Silva

Спасибо!

Ответить
Развернуть ветку
Oleksii Sidorov

Без опыта работы, хоть ты DS, хоть MLE - ты никому не нужен. Бешенный спрос есть только на реально хороших специалистов, как и в любой области, а таких вот людей с курсами - хоть лопатой греби. Мой друг с европейской магистратурой месяцами ищет работу и не может найти. Меня даже с годом опыта отсеивают на этапе CV. 

Ответить
Развернуть ветку
Max Solovev

Больше рекламы гавно курсов! Больше громких заголовков про сатанистов! Vc пробиле днище. 

Ответить
Развернуть ветку
Читать все 58 комментариев
null