Чем на самом деле занимаются Data Scientists? Рассказывают люди, перешедшие в эту сферу
Data Science – популярное направление в IT, о котором сейчас говорят все. Но далеко не каждый понимает, чем же на практике занимаются дата-сайентисты. Если кратко, они обрабатывают огромные массивы данных (настолько, что не влазят в таблицу Excel) и на их основе создают алгоритмы для решения разных задач – от составления прогнозов погоды и систем рекомендаций музыкальных сервисов до разработки умных чат-ботов и проведения генетических исследований.
На квалифицированных data science-специалистов огромный спрос среди крупных компаний. Интересная работа, отсутствие рутины и высокие зарплаты заставляют задуматься о смене работы людей не только с техническим образованием, но и гуманитариев. Однако ни те, ни другие не знают, как подступиться к профессии дата-сайентиста: куда пойти учиться, как устроиться на работу и что в итоге придется делать.
Мы поговорили с тремя выпускниками SkillFactory, прошедшими курс по Data Science, и выяснили, почему они решились на перемены в жизни, совпали ли ожидания от новой профессии с реальностью и с какими сложностями им пришлось столкнуться во время работы и учебы.
Савелий – 17 лет
Почему я выбрал Data Science
Все профессии, которые я знал в детстве, мне не особо нравились, зато меня всегда привлекали компьютеры. В 6 классе я заинтересовался программированием и стал изучать языки C++ и Python. Можно сказать, что к 9 классу у меня уже были довольно глубокие знания по написанию кода.
Еще тогда я понял, что если хочу развиваться в IT-сфере, одного программирования недостаточно. В тот момент мне предложили поучаствовать в школьной олимпиаде, связанной с Data Science. Работа с массивами данных привлекла меня тем, что требует творческого подхода – для каждой задачи надо подобрать оригинальное решение. Этим Data Science отличается от разработки софта, где используют примерно одинаковые методы. Но это мое субъективное мнение.
О сложностях в учебе
По Data Science совсем мало обучающих курсов и действительно полезной информации в открытом доступе. Решение учиться на дата-сайентиста в SkillFactory пришло после того, как я прошел у них трехмесячный курс по программированию на Python. Мне понравился удаленный формат и то, как структурирована учебная программа.
Я уже умел кодить и был уверен в своих скиллах, поэтому единственное, что смущало на курсе – это раздел с высшей математикой. Она давалась мне очень тяжело, так что иногда я обращался за помощью к менторам. Их ответ мог прийти моментально или на следующий день.
Еще мне помогали другие ученики. Вообще, на курсе много командных конкурсов, потому что дата-сайентист практически никогда работает один. Темы контестов полностью связаны с Data Science. Например, было соревнование по анализу временных рядов.
Как дипломный проект помог прокачать скиллы дата-сайентиста
За почти два года, что я занимаюсь Data Science, самым сложным заданием для меня был дипломный проект в SkillFactory – «Предсказание цен на недвижимость с использованием машинного обучения». Программа, которую я сделал, брала данные по определенному объекту: местоположение, этажность, площадь квартир и количество комнат – и строила по ним прогнозы стоимости этого жилья.
Самой трудной, но и самой интересной частью проекта был непростой формат данных. Легко работать с информацией в однотипном формате. Например, когда числа аккуратно собраны в таблицу. Но если есть какие-то подписи или символы, их нужно очищать, а это очень тяжело. По сути, я столкнулся с огромным массивом неструктурированных данных.
Дипломный проект занял очень много времени, но именно он развил навыки, которых раньше не хватало. Задание заставило применять самые изощренные решения, до которых я вряд ли бы додумался раньше.
Я стал детальнее разбираться во всех «фичах» Data Science и овладел новыми инструментами, например, hyperopt для автоматического подбора гиперпараметров или spellchecker для исправления орфографии в словах. Также я укрепил знания по материалам, которые на курсе мне были не совсем понятны.
Формат диплома был для меня в новинку, так что в основном менторы помогали с оформлением презентации. На каждом этапе работы я получал список ошибок и недочетов, которые нужно исправить. То же самое касается кода. Всегда можно было попросить о помощи, но я хотел разобраться во всем сам. По крайней мере там, где это было возможно.
О карьере
На курсе SkillFactory есть большой блок, посвященный трудоустройству. Нам рассказали о том, как правильно составить резюме, оформить портфолио и найти подходящую работу.
После окончания вуза я хочу работать в компании, которая занимается производством деталей для компьютеров, например, в Nvidia. Если не получится сразу найти работу по душе, поступлю в магистратуру за границей и буду развивать карьеру там. Мне не интересны руководящие позиции. Я просто люблю свое дело и хочу развивать свои навыки дата-сайентиста, чтобы в будущем создать что-то действительно полезное.
Сергей – 41 год
О потенциале Data Science
Я окончил факультет автоматизации в Сибирском государственном индустриальном университете. В IT-сферу пришел 14 лет назад, начинал с внедрения информационных систем для бизнеса. Последние 5 лет занимаю должность проектного менеджера.
В компании, где я работаю, используют большие данные и автоматизацию, поэтому во время разработки проектов часто сталкивался с методами машинного обучения. Я заметил, что не хватает людей со знаниями и навыками, которые позволят применить новые технологии по максимуму. В итоге захотелось немного уйти от проектного менеджмента в более функциональную область Data Science.
Я увидел потенциал этого направления: алгоритмы, созданные на основе данных, могут быстро решать самые сложные задачи бизнеса без привлечения большого количества людей. Исключаются ошибки в расчетах и прогнозах из-за запутанной коммуникации или банальной усталости.
Как я оказался на курсе SkillFactory
Я пришел к выводу, что если совмещу бэкграунд проектной работы и скиллы по Data Science, то стану востребованнее на рынке труда в будущем. Поиск подходящих курсов не был долгим: я увидел рекламу SkillFactory, изучил программу специализации Data Science, спросил у знакомого о качестве знаний, которые дает школа, и оплатил занятия.
Курс длился год. Я договорился на работе, что буду учиться по 2 часа день. В выходные занимался еще по 3–4 часа. Занятия поделены на 6 блоков: Python для анализа данных, математика, теория вероятности, статистика, машинное обучение и продуцирование решения, или science in production.
Про алгоритм, который избавил людей от рутинной работы
Через 4–5 месяцев после начала учебы я предложил решить одну задачу по работе: считалось, что ее трудно автоматизировать и нужен ручной труд с огромными временными затратами. Для реализации проекта я уже использовал знания, полученные на курсе.
Модель машинного обучения, которую я создал, помогает считать размер выплат дистрибьюторам. Для расчетов мы брали данные по продажам из торговых точек. Сложность в том, что в один магазин товар могут поставлять разные фирмы. При этом в отчетах данные по торговым точкам необходимо отнести к конкретному дистрибьютору.
Раньше филиалы дистрибьюторов вручную проставляли в автоматически сформированном отчете с торговыми точками. Теперь этот отчет проходит через алгоритм, и на выходе получается заполненная таблица. В ней уже указан номер и название филиала, на который нужно отнести продажи магазина. Сотруднику остается лишь убедиться в отсутствии неточностей, а возможные ошибки выделяются цветом.
Люди на работе говорили, что проект получился классным и здорово им помогает. В тот момент я решил, что нужно еще больше времени посвятить учебе и ушел в административный отпуск на полгода.
О дипломном проекте и перспективах в профессии
Этот алгоритм, созданный изначально для работы, и стал моим дипломным проектом на курсе Data Science. Новые знания и проверка ментора SkillFactory помогли его улучшить. Я переписал саму программу объектно-ориентированным подходом, добавил логирование информации и запуск с ключами, как этого требуют стандарты качества в сфере Data Science. Хотелось сделать то, что не стыдно показать и заявить: «Это мой дипломный проект, и я горжусь им».
Когда я вернулся из отпуска, к новой команде присоединился уже в роли дата-сайентиста. Теперь буду заниматься моделированием и предсказанием роста продаж.
В будущем я вижу себя человеком, который сможет выполнять все работы в области больших данных и машинного обучения. Теперь у меня есть широкий кругозор в этой сфере и способность видеть задачи, которые можно решить с помощью Data Science. Главное – не переставать искать что-то новое: следить за изменениями в индустрии, пользоваться лучшими инструментами и уметь пересматривать привычные подходы к работе.
Может ли гуманитарий стать дата-сайентистом
Часто люди могут не знать себя. Бывает, что идут в гуманитарный вуз только из-за обстоятельств. Самая банальная причина – избежать службы в армии. На деле же оказывается, что человек «технарь» до мозга костей, и он прекрасно раскрывается в IT.
На потоке по Data Science, где я учился, было несколько гуманитариев. Некоторые из них дошли до конца обучения. Если есть стремление, открыты все дороги. Но, конечно, таким людям будет сложнее. Для успешной учебы им нужно самостоятельно заполнять пробелы в знаниях – математике и программировании.
Виктория – 43 года
О первом знакомстве с Data Science
Я получила образование инженера-экономиста в Норильске и там же начала работать в телекоммуникационной компании. В ней я узнала о целевом маркетинге и предсказательных моделях. Тогда я еще не занималась аналитикой, а просто изучала презентации из Москвы. Меня все это захватило, но я понимала, что для профессиональной работы с данными нужно еще поучиться, так что поступила на статистический факультет Московского университета экономики.
Когда я переехала в Санкт-Петербург в начале 10-х, аналитики были не сильно востребованы. Цифровизация была еще не настолько глобальной, как сейчас. Правда, и мои навыки были больше теоретическими, а среднему бизнесу не хватало вычислительных мощностей. Поэтому практическое применение знаниям тогда находилось редко.
С тех пор уже 7 лет я работаю в ресторанном бизнесе, где анализирую продажи и клиентскую базу. Чтобы актуализировать свои знания и закрепить их на практике, я решила освоить профессию дата-сайентиста в SkillFactory.
От аналитики на Python к Data Science
О SkillFactory я узнала благодаря рекламе в Facebook. Увидела баннер с предложением обучиться на курсе «Анализ данных на Python». У меня в голове как раз крутилась мысль, что для работы в Data Science необходимо освоить этот язык.
После обучения я провела ручной анализ данных с использованием Python. Метод помог выявить потребительские инсайты, которые сильно отличались от тех, что продвигали наши партнеры из Москвы. Например, мы были уверены, что у нас много постоянных клиентов, а на деле оказалось, что большинство посетителей приходили в ресторан лишь один раз. Руководство сильно удивилось такому открытию.
Мне стало понятно, что в SkillFactory ты получаешь по-настоящему полезные прикладные навыки, поэтому для обучения Data Science никакую другую образовательную платформу я не рассматривала.
Что такое метод кластеризации и как он помогает бизнесу
Тема моего дипломного проекта по Data Science тоже была связана с клиентской базой нашего ресторана. Она была скорее исследовательской. Я делала сегментацию посетителей методом кластеризации. Проще говоря, с помощью алгоритма я делила клиентов на несколько групп, учитывая их потребительское поведение.
Метод кластеризации нравится мне тем, что он творческий. Никогда не знаешь, как алгоритм разделит людей. Внутри одной группы клиенты чем-то похожи, а в разных группах люди отличаются: кто-то ходит в заведение определенное количество раз в месяц, одни всегда тратят примерно одинаковую сумму, другие – часто заказывают конкретное блюдо. И только когда читаешь описание поведения, понимаешь, по каким параметрам алгоритм сформировал группы.
После уже можно приступать к интерпретации данных: выделить наиболее привлекательный сегмент аудитории, придумать, а затем смоделировать для него специальное предложение и спрогнозировать его эффективность. Причем это непрерывный процесс. Данные о клиенте постоянно анализируются. Зная, на что он реагирует, а на что нет, мы можем сделать наше следующее взаимодействие с ним еще более эффективным.
В том же Excel невозможно работать методом кластеризации. Все это я делаю в Python алгоритмами, которым меня научили в SkillFactory на курсе по Data Science.
О впечатлениях от курса
Я благодарна школе, что она оставляет выпускникам доступ к своим материалам после окончания курса. Бывало, что некоторые темы приходилось откладывать, чтобы сосредоточиться на практике. Когда с дедлайнами становилось свободнее, можно было посмотреть те же самые уроки с новым уровнем понимания.
Даже преподаватели говорили, что не с первого раза все может быть ясно. Но это не повод останавливаться, потому что при должных усилиях со всем получается разобраться. Еще понравилось то, что SkillFactory прислушиваются к ученикам. Например, сейчас расширили тему нейронных сетей. В нее добавили больше примеров, так что в моих планах пройти этот блок еще раз.
Какие скиллы важны для дата-сайентиста
Если говорить о hard skills, то дата-сайентисту необходимо знать математику, статистику и алгоритмы машинного обучения. Но также важно уметь доносить свои мысли до других людей простым языком – это уже из области soft skills.
Помимо работы с данными, дата-сайентист участвует в мозговых штурмах, где генерируют идеи, а затем рассматривают их эффективность для компании. Порой свои предложения нужно объяснить людям, которые не настолько технически подкованы, поэтому важно уметь говорить на одном языке с ними.
Если вы хотите освоить самую востребованную профессию 2020 года, записывайтесь на курс «Data Science с нуля» от SkillFactory.
За два года вы прокачаете скиллы дата-сайентиста до уровня middle и будете претендовать на вакансии со средней зарплатой 170 000 рублей. С первых дней обучения тьютор поможет вам определить карьерные цели и не сойти с пути в течение всей программы. В конце обучения в карьерном центре SkillFactory помогут составить резюме и начать проходить собеседования.
На пути к работе мечты остался лишь один шаг – записаться на курс «Data Science с нуля» с 40% скидкой.
Рекламная статья. К реальной работе профессионалов в этой сфере мало отношения имеет. Программа курса неадекватная потребностям бизнеса.
Чуть не вырвало, когда начал читать эту дикую смесь из русского языка и скиллов, фич, клинингов, инжинирингов, факингов...
А уж инфантильная семантика текста от дилетантов с обеих сторон (журналиста и интервьюируемых) окончательно испортила впечатление от этой мерзкой рекламной статьи.
P.S.: Автору на будущее: заранее определитесь на каком языке будете писать и не смешивайте слова из двух языков. Смотрится отвратно и безграмотно.
Это IT-сфера – здесь такие слова являются частью профессионального лексикона. Комментарий для данного сайта выглядит предельно невменяемо.
Есть устная речь, где возможны жаргонизмы, а есть печатная! Вы в курсе, что на свете существуют разговорный и литературный языки? )) Что уместно в ходе профессионального разговора, вменяемая Вы наша, то не допустимо в тексте профессиональной же статьи.Кстати, засилье жаргонизмов так и не наполнило статью какими-либо смыслами. Детский лепет, хоть и прошло уже четыре года с её выхода. )))
А Вы в курсе, что для каждого жанра свой язык?))) Литературный тут не уместен, как и разговорный, потому я и написала про профессиональный жаргон, потому что, несмотря на рекламный материал, этот текст о конкретной сфере, где используются совершенно конкретные слова. При чем тут "жаргонизмы не наполнили смыслами"?) Все хорошо у Вас с пониманием, как работает язык?)))
Мммм... Чай с индийскими специя.... Мммм ....ну а дальше вы поняли, может хватит пихать в каждую дыру ваших дата учёных, да простит меня вселенский разум.. где пруфы Билли ? Кроме рукописных отзывов.
I’m excited to uncover this page. I need to thank you for your time for this, particularly fantastic read!! I definitely really liked every part of it and I also have you saved to fav to look at new information in your site about Data science classes in pune
Комментарий удален модератором