Чем на самом деле занимаются Data Scientists? Рассказывают люди, перешедшие в эту сферу

Чем на самом деле занимаются Data Scientists? Рассказывают люди, перешедшие в эту сферу

Data Science – популярное направление в IT, о котором сейчас говорят все. Но далеко не каждый понимает, чем же на практике занимаются дата-сайентисты. Если кратко, они обрабатывают огромные массивы данных (настолько, что не влазят в таблицу Excel) и на их основе создают алгоритмы для решения разных задач – от составления прогнозов погоды и систем рекомендаций музыкальных сервисов до разработки умных чат-ботов и проведения генетических исследований.

На квалифицированных data science-специалистов огромный спрос среди крупных компаний. Интересная работа, отсутствие рутины и высокие зарплаты заставляют задуматься о смене работы людей не только с техническим образованием, но и гуманитариев. Однако ни те, ни другие не знают, как подступиться к профессии дата-сайентиста: куда пойти учиться, как устроиться на работу и что в итоге придется делать.

Мы поговорили с тремя выпускниками SkillFactory, прошедшими курс по Data Science, и выяснили, почему они решились на перемены в жизни, совпали ли ожидания от новой профессии с реальностью и с какими сложностями им пришлось столкнуться во время работы и учебы.

Савелий – 17 лет

Чем на самом деле занимаются Data Scientists? Рассказывают люди, перешедшие в эту сферу

Почему я выбрал Data Science

Все профессии, которые я знал в детстве, мне не особо нравились, зато меня всегда привлекали компьютеры. В 6 классе я заинтересовался программированием и стал изучать языки C++ и Python. Можно сказать, что к 9 классу у меня уже были довольно глубокие знания по написанию кода.

Еще тогда я понял, что если хочу развиваться в IT-сфере, одного программирования недостаточно. В тот момент мне предложили поучаствовать в школьной олимпиаде, связанной с Data Science. Работа с массивами данных привлекла меня тем, что требует творческого подхода – для каждой задачи надо подобрать оригинальное решение. Этим Data Science отличается от разработки софта, где используют примерно одинаковые методы. Но это мое субъективное мнение.

О сложностях в учебе

По Data Science совсем мало обучающих курсов и действительно полезной информации в открытом доступе. Решение учиться на дата-сайентиста в SkillFactory пришло после того, как я прошел у них трехмесячный курс по программированию на Python. Мне понравился удаленный формат и то, как структурирована учебная программа.

Я уже умел кодить и был уверен в своих скиллах, поэтому единственное, что смущало на курсе – это раздел с высшей математикой. Она давалась мне очень тяжело, так что иногда я обращался за помощью к менторам. Их ответ мог прийти моментально или на следующий день.

Еще мне помогали другие ученики. Вообще, на курсе много командных конкурсов, потому что дата-сайентист практически никогда работает один. Темы контестов полностью связаны с Data Science. Например, было соревнование по анализу временных рядов.

Как дипломный проект помог прокачать скиллы дата-сайентиста

За почти два года, что я занимаюсь Data Science, самым сложным заданием для меня был дипломный проект в SkillFactory – «Предсказание цен на недвижимость с использованием машинного обучения». Программа, которую я сделал, брала данные по определенному объекту: местоположение, этажность, площадь квартир и количество комнат – и строила по ним прогнозы стоимости этого жилья.

Самой трудной, но и самой интересной частью проекта был непростой формат данных. Легко работать с информацией в однотипном формате. Например, когда числа аккуратно собраны в таблицу. Но если есть какие-то подписи или символы, их нужно очищать, а это очень тяжело. По сути, я столкнулся с огромным массивом неструктурированных данных.

Фрагмент презентации дипломного проекта Савелия
Фрагмент презентации дипломного проекта Савелия

Дипломный проект занял очень много времени, но именно он развил навыки, которых раньше не хватало. Задание заставило применять самые изощренные решения, до которых я вряд ли бы додумался раньше.

Я стал детальнее разбираться во всех «фичах» Data Science и овладел новыми инструментами, например, hyperopt для автоматического подбора гиперпараметров или spellchecker для исправления орфографии в словах. Также я укрепил знания по материалам, которые на курсе мне были не совсем понятны.

Формат диплома был для меня в новинку, так что в основном менторы помогали с оформлением презентации. На каждом этапе работы я получал список ошибок и недочетов, которые нужно исправить. То же самое касается кода. Всегда можно было попросить о помощи, но я хотел разобраться во всем сам. По крайней мере там, где это было возможно.

О карьере

На курсе SkillFactory есть большой блок, посвященный трудоустройству. Нам рассказали о том, как правильно составить резюме, оформить портфолио и найти подходящую работу.

После окончания вуза я хочу работать в компании, которая занимается производством деталей для компьютеров, например, в Nvidia. Если не получится сразу найти работу по душе, поступлю в магистратуру за границей и буду развивать карьеру там. Мне не интересны руководящие позиции. Я просто люблю свое дело и хочу развивать свои навыки дата-сайентиста, чтобы в будущем создать что-то действительно полезное.

Сергей – 41 год

Чем на самом деле занимаются Data Scientists? Рассказывают люди, перешедшие в эту сферу

О потенциале Data Science

Я окончил факультет автоматизации в Сибирском государственном индустриальном университете. В IT-сферу пришел 14 лет назад, начинал с внедрения информационных систем для бизнеса. Последние 5 лет занимаю должность проектного менеджера.

В компании, где я работаю, используют большие данные и автоматизацию, поэтому во время разработки проектов часто сталкивался с методами машинного обучения. Я заметил, что не хватает людей со знаниями и навыками, которые позволят применить новые технологии по максимуму. В итоге захотелось немного уйти от проектного менеджмента в более функциональную область Data Science.

Я увидел потенциал этого направления: алгоритмы, созданные на основе данных, могут быстро решать самые сложные задачи бизнеса без привлечения большого количества людей. Исключаются ошибки в расчетах и прогнозах из-за запутанной коммуникации или банальной усталости.

Как я оказался на курсе SkillFactory

Я пришел к выводу, что если совмещу бэкграунд проектной работы и скиллы по Data Science, то стану востребованнее на рынке труда в будущем. Поиск подходящих курсов не был долгим: я увидел рекламу SkillFactory, изучил программу специализации Data Science, спросил у знакомого о качестве знаний, которые дает школа, и оплатил занятия.

Курс длился год. Я договорился на работе, что буду учиться по 2 часа день. В выходные занимался еще по 3–4 часа. Занятия поделены на 6 блоков: Python для анализа данных, математика, теория вероятности, статистика, машинное обучение и продуцирование решения, или science in production.

Про алгоритм, который избавил людей от рутинной работы

Через 4–5 месяцев после начала учебы я предложил решить одну задачу по работе: считалось, что ее трудно автоматизировать и нужен ручной труд с огромными временными затратами. Для реализации проекта я уже использовал знания, полученные на курсе.

Модель машинного обучения, которую я создал, помогает считать размер выплат дистрибьюторам. Для расчетов мы брали данные по продажам из торговых точек. Сложность в том, что в один магазин товар могут поставлять разные фирмы. При этом в отчетах данные по торговым точкам необходимо отнести к конкретному дистрибьютору.

Раньше филиалы дистрибьюторов вручную проставляли в автоматически сформированном отчете с торговыми точками. Теперь этот отчет проходит через алгоритм, и на выходе получается заполненная таблица. В ней уже указан номер и название филиала, на который нужно отнести продажи магазина. Сотруднику остается лишь убедиться в отсутствии неточностей, а возможные ошибки выделяются цветом.

Фрагмент презентации дипломного проекта Сергея
Фрагмент презентации дипломного проекта Сергея

Люди на работе говорили, что проект получился классным и здорово им помогает. В тот момент я решил, что нужно еще больше времени посвятить учебе и ушел в административный отпуск на полгода.

О дипломном проекте и перспективах в профессии

Этот алгоритм, созданный изначально для работы, и стал моим дипломным проектом на курсе Data Science. Новые знания и проверка ментора SkillFactory помогли его улучшить. Я переписал саму программу объектно-ориентированным подходом, добавил логирование информации и запуск с ключами, как этого требуют стандарты качества в сфере Data Science. Хотелось сделать то, что не стыдно показать и заявить: «Это мой дипломный проект, и я горжусь им».

Когда я вернулся из отпуска, к новой команде присоединился уже в роли дата-сайентиста. Теперь буду заниматься моделированием и предсказанием роста продаж.

В будущем я вижу себя человеком, который сможет выполнять все работы в области больших данных и машинного обучения. Теперь у меня есть широкий кругозор в этой сфере и способность видеть задачи, которые можно решить с помощью Data Science. Главное – не переставать искать что-то новое: следить за изменениями в индустрии, пользоваться лучшими инструментами и уметь пересматривать привычные подходы к работе.

Может ли гуманитарий стать дата-сайентистом

Часто люди могут не знать себя. Бывает, что идут в гуманитарный вуз только из-за обстоятельств. Самая банальная причина – избежать службы в армии. На деле же оказывается, что человек «технарь» до мозга костей, и он прекрасно раскрывается в IT.

На потоке по Data Science, где я учился, было несколько гуманитариев. Некоторые из них дошли до конца обучения. Если есть стремление, открыты все дороги. Но, конечно, таким людям будет сложнее. Для успешной учебы им нужно самостоятельно заполнять пробелы в знаниях – математике и программировании.

Виктория – 43 года

Чем на самом деле занимаются Data Scientists? Рассказывают люди, перешедшие в эту сферу

О первом знакомстве с Data Science

Я получила образование инженера-экономиста в Норильске и там же начала работать в телекоммуникационной компании. В ней я узнала о целевом маркетинге и предсказательных моделях. Тогда я еще не занималась аналитикой, а просто изучала презентации из Москвы. Меня все это захватило, но я понимала, что для профессиональной работы с данными нужно еще поучиться, так что поступила на статистический факультет Московского университета экономики.

Когда я переехала в Санкт-Петербург в начале 10-х, аналитики были не сильно востребованы. Цифровизация была еще не настолько глобальной, как сейчас. Правда, и мои навыки были больше теоретическими, а среднему бизнесу не хватало вычислительных мощностей. Поэтому практическое применение знаниям тогда находилось редко.

С тех пор уже 7 лет я работаю в ресторанном бизнесе, где анализирую продажи и клиентскую базу. Чтобы актуализировать свои знания и закрепить их на практике, я решила освоить профессию дата-сайентиста в SkillFactory.

От аналитики на Python к Data Science

О SkillFactory я узнала благодаря рекламе в Facebook. Увидела баннер с предложением обучиться на курсе «Анализ данных на Python». У меня в голове как раз крутилась мысль, что для работы в Data Science необходимо освоить этот язык.

После обучения я провела ручной анализ данных с использованием Python. Метод помог выявить потребительские инсайты, которые сильно отличались от тех, что продвигали наши партнеры из Москвы. Например, мы были уверены, что у нас много постоянных клиентов, а на деле оказалось, что большинство посетителей приходили в ресторан лишь один раз. Руководство сильно удивилось такому открытию.

Мне стало понятно, что в SkillFactory ты получаешь по-настоящему полезные прикладные навыки, поэтому для обучения Data Science никакую другую образовательную платформу я не рассматривала.

Что такое метод кластеризации и как он помогает бизнесу

Тема моего дипломного проекта по Data Science тоже была связана с клиентской базой нашего ресторана. Она была скорее исследовательской. Я делала сегментацию посетителей методом кластеризации. Проще говоря, с помощью алгоритма я делила клиентов на несколько групп, учитывая их потребительское поведение.

Метод кластеризации нравится мне тем, что он творческий. Никогда не знаешь, как алгоритм разделит людей. Внутри одной группы клиенты чем-то похожи, а в разных группах люди отличаются: кто-то ходит в заведение определенное количество раз в месяц, одни всегда тратят примерно одинаковую сумму, другие – часто заказывают конкретное блюдо. И только когда читаешь описание поведения, понимаешь, по каким параметрам алгоритм сформировал группы.

Фрагмент презентации дипломного проекта Виктории. Цветами помечены разные сегменты аудитории
Фрагмент презентации дипломного проекта Виктории. Цветами помечены разные сегменты аудитории

После уже можно приступать к интерпретации данных: выделить наиболее привлекательный сегмент аудитории, придумать, а затем смоделировать для него специальное предложение и спрогнозировать его эффективность. Причем это непрерывный процесс. Данные о клиенте постоянно анализируются. Зная, на что он реагирует, а на что нет, мы можем сделать наше следующее взаимодействие с ним еще более эффективным.

В том же Excel невозможно работать методом кластеризации. Все это я делаю в Python алгоритмами, которым меня научили в SkillFactory на курсе по Data Science.

О впечатлениях от курса

Я благодарна школе, что она оставляет выпускникам доступ к своим материалам после окончания курса. Бывало, что некоторые темы приходилось откладывать, чтобы сосредоточиться на практике. Когда с дедлайнами становилось свободнее, можно было посмотреть те же самые уроки с новым уровнем понимания.

Даже преподаватели говорили, что не с первого раза все может быть ясно. Но это не повод останавливаться, потому что при должных усилиях со всем получается разобраться. Еще понравилось то, что SkillFactory прислушиваются к ученикам. Например, сейчас расширили тему нейронных сетей. В нее добавили больше примеров, так что в моих планах пройти этот блок еще раз.

Какие скиллы важны для дата-сайентиста

Если говорить о hard skills, то дата-сайентисту необходимо знать математику, статистику и алгоритмы машинного обучения. Но также важно уметь доносить свои мысли до других людей простым языком – это уже из области soft skills.

Помимо работы с данными, дата-сайентист участвует в мозговых штурмах, где генерируют идеи, а затем рассматривают их эффективность для компании. Порой свои предложения нужно объяснить людям, которые не настолько технически подкованы, поэтому важно уметь говорить на одном языке с ними.

Если вы хотите освоить самую востребованную профессию 2020 года, записывайтесь на курс «Data Science с нуля» от SkillFactory.

За два года вы прокачаете скиллы дата-сайентиста до уровня middle и будете претендовать на вакансии со средней зарплатой 170 000 рублей. С первых дней обучения тьютор поможет вам определить карьерные цели и не сойти с пути в течение всей программы. В конце обучения в карьерном центре SkillFactory помогут составить резюме и начать проходить собеседования.

На пути к работе мечты остался лишь один шаг – записаться на курс «Data Science с нуля» с 40% скидкой.

7 комментариев

Рекламная статья. К реальной работе профессионалов в этой сфере мало отношения имеет. Программа курса неадекватная потребностям бизнеса. 

1
Ответить

Чуть не вырвало, когда начал читать эту дикую смесь из русского языка и скиллов, фич, клинингов, инжинирингов, факингов...
А уж инфантильная семантика текста от дилетантов с обеих сторон (журналиста и интервьюируемых) окончательно испортила впечатление от этой мерзкой рекламной статьи.
P.S.: Автору на будущее: заранее определитесь на каком языке будете писать и не смешивайте слова из двух языков. Смотрится отвратно и безграмотно.

Ответить

Это IT-сфера – здесь такие слова являются частью профессионального лексикона. Комментарий для данного сайта выглядит предельно невменяемо.

Ответить

Мммм... Чай с индийскими специя.... Мммм ....ну а дальше вы поняли, может хватит пихать в каждую дыру ваших дата учёных, да простит меня вселенский разум.. где пруфы Билли ? Кроме рукописных отзывов. 

Ответить

I’m excited to uncover this page. I need to thank you for your time for this, particularly fantastic read!! I definitely really liked every part of it and I also have you saved to fav to look at new information in your site about Data science classes in pune

Ответить