Mail.ru Group
11 382

Поймать момент: почему сейчас самое подходящее время, чтобы освоить data science

Программный директор Академии больших данных MADE в Mail.ru Group Илья Макаров — о том, почему бизнес охотится за специалистами по data science, и как овладеть одной из самых востребованных IT-профессий.

В закладки
Слушать

На прошлой неделе мы открыли новый набор на бесплатное обучение в Академию больших данных MADE. В ней IT-специалисты смогут очно или дистанционно за полтора года освоить одну из трех специальностей — data scientist, machine learning engineer или data engineer. Мы расспросили программного директора Академии о том, как он пришел в data science, с чего начинать путь в этой сфере, сколько получает data scientist и чему учат на курсах MADE.

«В data science меня привел интерес ко всему новому и сложному»

Я окончил механико-математический факультет МГУ, моя специализация – математическая логика и теория чисел. Родственники и знакомые часто интересовались, кем я планирую работать с таким дипломом – не деньги ли считать на кассе.

В data science меня привел интерес ко всему новому и сложному: все, что кажется сложным, я всегда воспринимал как вызов, хотелось разобраться, как это работает. Получив диплом, я занялся преподаванием компьютерных дисциплин и высшей математики, а через год стал заместителем руководителя департамента анализа данных и искусственного интеллекта НИУ ВШЭ.

Меня тогда особенно интересовало применение искусственного интеллекта в играх. Движок Unreal Engine только-только стал бесплатным, и появились возможности для создания крутых игр и проведения игрового теста Тьюринга. Было интересно оценить, насколько NPC могут быть неотличимы от реальных игроков. Мы с коллегами экспериментировали как с классическими методами дискретной оптимизации (построение навигационных карт, интеллектуальное перемещение), так и с нейронными сетями (выбор оружия, оценка позиции для определения командной тактики в шутерах от первого лица).

В это же время стало известно о первых успехах обучения с подкреплением в Doom и Atari: они подтверждали, что искусственный интеллект способен превосходить человека в решении типовых задач даже в сложноустроенных окружениях.

Сегодня мы занимаемся практически всем: от текстов до голосовых помощников, от анализа изображений до обработки видео, активно изучаем индустриальное машинное обучение и возможные способы его применения.

Даже большие затраты на data science окупаются для бизнеса

Одна из причин, по которой специалисты в области data science вдруг стали так нужны компаниям, – цифровая трансформация. Цифровизация бизнес-процессов позволяет сокращать издержки, выявлять узкие места, предсказывать перспективность тех или иных направлений, персонализировать работу с клиентами и много чего еще. Все это делает бизнес конкурентным по сравнению с компаниями, которые работают по отлаженной схеме.

Даже большие затраты на разработку моделей и методов интеллектуальной обработки данных окупаются прибылью от их внедрения, несмотря на высокие зарплаты в отрасли и большой спрос на специалистов.

По мнению экспертов The Boston Consulting Group, в этой гонке победят компании, которые не просто проведут цифровую трансформацию, а сделают это быстрее других. Именно для этого бизнесу и нужны data scientists.

Навык работы с данными — это новый английский

Все мы видим активное развитие дистанционных услуг на фоне пандемии. Уже давно растет использование ИИ в медицине для предоставления персональных рекомендаций по лечению. ИИ применяется в науке о материалах для предсказания сплавов и их свойств, синтеза новых веществ. В сельском хозяйстве ожидается максимальная автоматизация производства, на фабриках и заводах используют индустриальное машинное обучение для оптимизации химических процессов, предсказаний поломок и контроля качества продукции.

ИИ востребован в пока далеких, но перспективных направлениях, влияющих на наше будущее: в квантовой физике, виртуальной реальности и когнитивных технологиях.

Навык работы с данными и прототипирование на Python сейчас становится чем-то сродни изучению английского в школе лет 20 назад – все к этому стремятся. Статистическая обработка данных вместе с предиктивной аналитикой позволяют не только анализировать отдельные бизнес-процессы, но и иметь объективные границы предсказаний и возможностей принимать решения на основе данных, а это ключевое преимущество крупных компаний в борьбе за быстрорастущие рынки.

Я смотрю на data science как на новую цифровую грамотность: скоро для работы в IT-компании это станет таким же базовым навыком, как умение работать с Microsoft Office.

Выпустить универсальные учебники по data science невозможно – они устаревают быстрее, чем их успевают издать

В мое время было гораздо меньше онлайн ресурсов, таких как Coursera, Udacity, DataCamp. Меня выручали подробные подборки материалов по теме и туториалы по фреймворкам для работы с данными. Сейчас data science развивается в буквальном смысле на наших глазах. Написать какие-то учебники просто невозможно – они устаревают быстрее, чем их успевают издать.

Еще одна сложность, которая повышает порог вхождения — недостаток материалов на русском.

Одна из немногих работ — могу ее посоветовать всем, кто хочет погрузиться в тему — бестселлер «Глубокое обучение» Сергея Николенко, который, кстати, преподает в Академии больших данных MADE. А чтобы держать руку на пульсе, можно изучать доклады с топовых конференций: именно там публикуются самые свежие идеи. Часто что-то стоящее можно найти в препринтах на на arXiv.org. Много материалов для начинающих есть на канале «Технострим».

Еще для освоения машинного обучения понадобится освежить теоретические и практические основы теории вероятностей, математической статистики, теории оптимизации и линейной алгебры.

Зарплатный потолок в data science выше, чем в разработке — но до него еще нужно добраться

Будучи относительно новым направлением, data science обрастает мифами. Вот некоторые из них.

  • Миф № 1. ИИ-специалист, и в частности data scientist — это человек, который делает Терминатора

Приверженцы этого мифа убеждены, что нас всех следует сжечь (вместе с вышками 5G). Могу успокоить: до появления общего искусственного интеллекта, подобного человеческому, еще очень далеко. Сейчас работа идет в области реализации конкретных кейсов, которые делают жизнь компаний и людей проще. А вот вероятность Матрицы в пост-коронавирусный период увеличилась.

  • Миф № 2. Data science — это легко: главное — освоить шаблон действий

Часто люди думают, что достаточно сконструировать нейронную сеть (а можно вообще взять готовую), векторизовать данные, задать функцию потерь, запустить оптимизатор, дождаться завершения процесса обучения – и модель готова. Это заблуждение особенно распространено среди тех, кто прошел базовый онлайн-курс, где было достаточно вставить нужную строчку кода в правильное место.

На практике такие модели почти никогда не работают — к тому же непонятно, что с ними делать дальше. Часто в таких случаях специалисты идут по пути наименьшего сопротивления: не получилось с этим проектом — бросают его и переключаются на новую задачу. В среде разработчиков подобное считается дурным тоном, а для специалистов по data science, к сожалению, это распространенная история.

Нет учебника и нет универсальной методологии по созданию нейросети, которая покажет точность 99,99% и будет устраивать всех. Чтобы руководить проектами в области data science, необходимы знания основ высшей математики и статистической теории обучения, умения критически мыслить и быстро анализировать новые подходы, развитые навыки разработки и быстрого прототипирования.

  • Миф № 3. Data scientist получает 300к в секунду

В ряде компаний data scientist уровня senior может получать вдвое больше, чем опытный разработчик. Профессионал высокого класса, который способен тянуть несколько команд и при этом еще писать код, может иметь и более высокую зарплату. Но для того, чтобы добраться до такого уровня, нужно несколько лет опыта в этой области. У junior-специалистов ставки будут ниже.

Опытный middle-разработчик, который хочет перейти в data science, окажется в роли junior-специалиста — и, скорее всего, первое время будет получать меньше, чем раньше. Но при этом зарплатный потолок в data science гораздо выше, чем в разработке: часть задач в этой сфере требует креативного подхода, ведь стандартных решений пока не существует.

Стать data scientist за полтора года: миссия выполнима

Навыки работы с данными и прототипирования на Python становятся новым английским. Все больше компаний внедряют data-driven подход, и я склонен рассматривать владение основами data science как необходимость для всех IT-специалистов (как впрочем и для социальных и гуманитарных специальностей и других профессий, которые могут быть связаны с обработкой данных в широком смысле).

Специалисты по data science востребованы в в IT, в банковской сфере, в медицине и образовании, сельском хозяйстве, ритейле и телекоммуникациях. И этот список постоянно пополняется, так что спрос будет только расти. В Mail.ru Group, например, в каждом бизнес-подразделении есть команда, которая занимается data science.

Многие из тех, кто заинтересован в развитии в data science и уже самостоятельно сделал шаги в этом направлении, хотят углубить свои компетенции и привести их в соответствие с требованиями компаний.

Академия больших данных MADE рассчитана на IT-специалистов с опытом 1-3 года. Мы ждем слушателей, которые готовы работать над сложными проектами и интегрировать их в бизнес-процессы компании. Три основных принципа Академии:

  1. Все теоретические знания подкрепляются практикой. Студенты знают, как реализовать каждый изучаемый метод и как его применить на конкретных данных.

  2. Ориентированность на результат. Каждая дисциплина образовательной программы соответствует тому или иному требованию для позиции data scientist. Выпускники Академии получают в точности тот багаж знаний, который нужен для прохождения собеседований и работы по специальности: все нужное и ничего лишнего.

  3. Проектная работа. Это работа над реальными кейсами с менторами из Mail.ru Group, других крупнейших технологических компаний и лучших российских вузов. Выпускники покидают Академию с готовым проектом в портфолио.

Программа построена таким образом, чтобы обучение можно было совмещать с работой – оно занимает 15–30 часов в неделю. У MADE есть и офлайн-, и онлайн-формат — можно смотреть лекции из любой точки мира.

В прошлом году на очное обучение в Академию конкурс был 10 человек на место, на дистанционное — 32 человека на место. Мы приняли 200 студентов, но даже среди тех, кто прошел жесткий вступительный отбор, первую сессию смогли сдать не все: сейчас на первом потоке учатся 160 человек.

В MADE непросто: у нас есть менторы, они готовы помочь, но они не понесут студента на руках, если тот решит расслабиться. До конца дойдет не каждый — но те, кто сможет это сделать, получат полный набор скиллов в data science, которые востребованы на рынке.

Через полтора года наши выпускники могут претендовать на позицию data scientist, data engineer или machine learning engineer (в зависимости от выбранной специализации) в компании из любой сферы. Некоторые студенты первого потока нашей Академии, еще не закончив обучение, уже получили офферы — они работают в банках, телекоммуникационных, e-commerce- и других компаниях.

Обучение в Академии больших данных MADE бесплатное. Чтобы поступить, нужно пройти вступительные испытания. Их четыре: два онлайн-теста – по математике и программированию (на знание высшей математики и навыки программирования на С++, Java или Python), соревнование по машинному обучению и онлайн-собеседование. Заявки на обучение в Академии MADE принимаются до 1 августа.

Чем должен владеть data scientist

· Теория вероятностей

· Математическая статистика

· Теория оптимизации

· Линейная алгебра

· Высшая математика

· Статистическая теория обучения

· Разработка

Крупнейший IT-холдинг в России по дневной аудитории
{ "author_name": "Mail.ru Group", "author_type": "editor", "tags": [], "comments": 58, "likes": 15, "favorites": 209, "is_advertisement": false, "subsite_label": "mailrugroup", "id": 129884, "is_wide": true, "is_ugc": false, "date": "Fri, 29 May 2020 10:46:18 +0300", "is_special": false }
0
58 комментариев
Популярные
По порядку
Написать комментарий...
15

У меня одного чувство, что о дата-сайентистах сейчас из каждого утюга верещат? Ох и нажрётся сейчас инфобизнес...

Ответить
22

Ещё год назад хайпа было ещё больше. Но главного мало кто говорит - без мат. вышки вы никогда не станете дата сайентистом.

Ответить
0

если вы не можете освоить материал 1-го курса университета, то нефиг вам этим заниматься ага

Ответить
0

На первом курсе 11-й класс повторяют. Ну может в МФТИ конечно не так.

Ответить
6

нам на первом занятии (вмк мгу) сказали - забудьте всё, чему вас учили в школе. мы будем строить с нуля здание, основанное на аксиомах и док-вах

Ответить
0

В общем топовые вузы могут себе позволить )

Ответить
0

Ни разу не топовый КГТУ (Красноярск) тоже не повторял программу 11го класса. Слава яйцам я готовилась к сдаче вступительного теста именно политеховского и нам дополнительно давали программу по интегральному исчислению. Иначе бы а) не поступила; б) если бы и поступила, то было бы «забудьте все, о чем вас учили в школе»😁

Ответить
–2

Когда женщина восхваляет яйца, это всегда приятно умиляет 😁

Ответить
0

Это идеально для меня, я в школе не учился.

Ответить
4

Поступив много лет назад на мат фак гос вуза области и считая себя очень хорошо разбирающимся в математике, я был в шоке от той инфы, которую нам преподавали в вузе с первых дней. Ничего общего с математикой из школы. До сих пор не вериться что смог закончить вуз - хотел отчислиться 150 раз, просто не тянул мат инфу вуза.
К такой дичи надо готовится года за 2-3 до поступления, иначе все шансы вылететь еще на первом семестре.

Ответить
1

в МФТИ - не так

Ответить
7

Самое главное, как обычно никто не говорит, что это все можно выучить самостоятельно

Ответить
6

А не надо ли для начала повторить путь «Я окончил механико-математический факультет МГУ, моя специализация – математическая логика и теория чисел»? А то Математика никогда не была моей сильной стороной, а вносить дальнейшую профанацию в отрасль своим присутствием не хотелось бы.

Ответить
1

Внушает уважение, что в конце заметки опубликовали требования к начальным знаниям. А то уже реально запарили рекламы: датасатанистом может стать каждый.

Ответить
0

Мы нацелены на набор студентов, способных пройти курс целиком, поэтому и вступительные испытания — не пустой звук, они довольно сложны. 

Ответить
2

Да, мне не потянуть. Кстати, спасибо вам за бесплатные курсы Geekbrains :)

Ответить
1

Гигбрейн и Скилбокс я не буду учить даже если мне деньги предложат. Уж лучше самому учиться чем у них.

Ответить
0

Прошёлся на самоизоляции по курсу SQL, чисто вспомнить, много нового узнал. Показалось очень не плохо. Будет время, ещё чего-нибудь попробую. Скилбокс не знаю, не пробовал.

Ответить
0

Все подряд же учить не нужно, да и в универе много левых предметов, давайте будем честны.

Ответить
2

Ага, согласна, все это есть давно на YouTube. А тут даже ролики так сложили чтобы учиться было просто - https://yalpi.org/professii/data-science

Ответить
1

Самостоятельно выучить можно что угодно, но не лучше ли делать это с профессионалами, когда есть такая возможность?

Ответить
0

Действительно, профессионалы пишут книги и снимают видео, причем за очень маленькую стоимость. МАДЕ - топчик, гикбрейнс - пренебречь.

Ответить
10

"слышь, купи курс"

Ответить
0

Хорошо, я в деле!

Ответить
6

Не понимаю, зачем дата инженеру диффуры, пределы, соревнования по машинному обучению. Чистить данные, сливать их, месить, упорядочивать, для этого не нужны диффуры. Я математик-программист по образованию, у меня была вышка, линейная алгебра, дискретная математика, и диффуры были, популяция зайцев и волков на матлабе, будь они неладны, вместе с точками бифуркации и аттракторами, я прошла всю специализацию курсеры от Яндекса по машобучению и анализу данных, но я открыла пример теста по вышке в эту Академию и не поняла - зачем все это... Ребята, тот, кто сходу решит эти задачи - ему реально не нужна никакая академия, у него все норм. А если вы это можете решить, но вам все равно нужна академия - то вы что-то просто неправильно делаете. И академия не поможет. Это какая-то другая проблема.

Ответить
3

+100500
На практике большая часть матана не нужна.
Но нужно как-то отфильтровать желающих.

P.S. Mail.ru опубликуйте, пожалуйста, какие-нибудь метрики по эффективности отбора. Желательно, конечно, результаты A/B теста :trollface:

Ответить
0

Комментарий выше не о том, что фильтр не нужен, а об его некорректности. Работа  data engineer не связана с математикой, зачем у такого специалиста его спрашивать?

Ответить
6

Почему СЕЙЧАС самое подходящее время, чтобы освоить data science – не понял 

Ответить
2

 Лучшее время, чтобы посадить дерево, было 20 лет назад. Следующее лучшее время – сегодня.

Но майловцам продавать курсы нужно, поэтому тут статья

Ответить
0

MADE бесплатен и (вероятно) крайне убыточен. Mail туда денег влил мама не горюй. Реально крутых людей выкупила курсы читать (типа Николенко).

Ответить
0

Тогда вам это не нужно. Наверное.

Ответить
3

Грубовато, но по сути )))

Ответить
5

По сути ожидал получить ответ программного директора академии больших данных MADE в Mail.ru Group Ильи Макарова (это же надо было так должность назвать) Смайл-смайл

Ответить
1

Потому что им надо продать больше. Потому что реклама такая реклама

Ответить
3

В чём профит для учащихся? Они не смогли самостоятельно и готовы тратить время чтобы потом их пристроили на какой-нибудь скромный чек?

Но странный тогда таргетинг. Судя по вступительным.

 Их четыре: два онлайн-теста – по математике и программированию (на знание высшей математики и навыки программирования на С++, Java или Python), соревнование по машинному обучению и онлайн-собеседование.

Звучит так, что кандидат легко устроится даже с такими умениями в условный сбербанк легко. Так что ему даст мейл?

( я не для себя, если что, трудоустроена 👌)

Ответить
1

Например, стек/дисциплина, которую просто так не пройти. Я не особо знаю, можно ли вне MADE шарить информацию про курсы/кто ведет, но могу сказать, что мейл серьезно вложились в программу в плане финансов. Николенко из текста статьи - лишь вершина айсберга.

Ответить
0

Чёткая программа обучения, поддержка ментора и работа над реальными кейсами дадут лучший результат, чем самостоятельное изучение. 
Профит для учащихся — знания и навыки. 
Инвестировать в них своё время или нет, каждый решает сам для себя. 

Ответить
3

@Mail.ru Group Будет ли более подробная информация по каким темам (особенно по математике) будет вступительный экзамен? Или вот оно и есть:
· Теория вероятностей
· Математическая статистика
· Теория оптимизации
· Линейная алгебра
· Высшая математика
· Статистическая теория обучения
· Разработка?

Ответить
0

Я поражаюсь. Люди интересуются дата сайенс. Зайдите на сайт! Там есть список тем, список книг, пример заданий. Для начала хотя бы.

Ответить
1

Интересуются скорее большим заработком и мечтами.

Знаю двух девушек, работают в экселе, но мечта стать датасаентистками, сейчас копят на курсы. Читать книги не хотят))

Ответить
1

Так Курсера в помощь. Зачем деньги? Сначала слушают как слушатели, бесплатно, если прет, можно для сертификата заплатить. А если нет, так и нет.

Ответить
2

Кстати,
 почему бизнес охотится за специалистами по data science

Сложилось абсолютно противоположное мнение. Увы, никому не нужны. Для этого необходимо больше компетенций у руководства, а с этим дефицит. Все хотят аналитиков (низкий чек) или программистов (нужна борода).

Может конечно ситуация поменяется, но пока в РФ с этим туго. А может так и должно быть.

Ответить
3

И скольких datasciencистов вам не хватает? В штуках если можно.

Ответить
2

А если ближе к делу, какую зп на старте предлагаете окончившим курс?

Ответить
1

по моим ощущением, в яндекс сатанистов набирают столько же, сколько разрабов

Ответить
0

На самом деле нет

Ответить
2

Data scientist – хорошая профессия! Надо же кому-то перелопачивать терабайты данных, собранных для товарища майора по закону Яровой. И работодатель отличный!

Ответить
0

Натуре

Ответить
2

Не думаю, что сюда стоит идти только потому, что профессия "востребована". Еще долгое время будет востребованы именно бекенд, фроентенд разработчки разных мастей, чтобы пилить разный ентерпрайз, мобильные приложения, девопсы и т.п.

Далеко не всем бизнесам нужен data scientist, и уж тем более штат data scientist не резиновый. Их не нужно дестяки. Хватит двух работяг, рандомно подбирающих коэффициенты. 

На мой взгляд, в этой области может преуспеть только человек, которому это искренне интересно. Кто хочет тут расти, и развиваться. С точки зрения заработка - это так себе история. По крайней мере пока что.

Ответить
2

в чем концептуальное отличие трех специальностей?

Ответить
1

Интересно когда рынок ими насытиться) Их не так много много, но больше пафоса.

При этом если посмотреть какие то вещи, которыми занимаются, то не всегда они в реальности хороши их теории.

Ответить
0

Спасибо!

Ответить
0

Без опыта работы, хоть ты DS, хоть MLE - ты никому не нужен. Бешенный спрос есть только на реально хороших специалистов, как и в любой области, а таких вот людей с курсами - хоть лопатой греби. Мой друг с европейской магистратурой месяцами ищет работу и не может найти. Меня даже с годом опыта отсеивают на этапе CV. 

Ответить
–2

Больше рекламы гавно курсов! Больше громких заголовков про сатанистов! Vc пробиле днище. 

Ответить

Комментарии