К 2025 году data scientist возьмет управление над 175 миллиардами терабайт данных

90 % мировых данных было создано за последние два года – так свидетельствовала в 2013 году IBM, одна из крупнейших технологических компаний мира. Но уже к 2025 году каждый день будет создаваться 175 миллиардов терабайт данных. Как мир будет управлять этой информацией, и что полезного извлечет каждый для себя?

кадр из фильма "Предел риска"
кадр из фильма "Предел риска"

Сочетая в себе науку и бизнес-аналитику, давая возможность людям оказывать большее влияние на их отрасли, чем генеральные директора и основатели, профессия data scientist, вскоре станет работой мирового значения. Кто займет эту привлекательную позицию? Каков портрет идеального кандидата? По мнению современных хедхантеров, идеальный data scientist – наполовину хакер, наполовину аналитик, эффективно использующий данные для поиска идей и создания продуктов.

В период между 2011 и 2012 годами списки вакансий на позицию data scientist выросли на 15 000%, и это не опечатка. Наука о данных существует около 300 лет, до прихода в нашу жизнь прогресса она была основана на древних философских принципах.

Основная идея науки о данных заключается в том, что информация объективна, и чем больше у вас информации, тем более объективными могут быть выводы, которые вы можете сделать.

Задача исследователей данных - собирать информацию таким образом, чтобы ее можно было проанализировать с помощью алгоритма машинного обучения. Это означает, что поля данных должны быть стандартизированы таким образом, чтобы все данные поступали одинаковым образом, в противном случае данные будут повреждены и их будет слишком сложно использовать должным образом.

«Я верю в будущее искусственного интеллекта. Однако, встает очень важный вопрос – кто меняет ИИ. Здесь важна не только интеллектуальная сторона специалистов, но и этическая, ведь их заключения и предложения несут в будущем огромное влияние не только на бизнес, но и на жизни людей, окружающую среду. Специалисты по данным должны понимать это», - рассуждает Пьер Поликарпов, финансовый директор Поляков Финанс и эксперт в области «Индустрия 4.0».

Ученые, занимающиеся данными, должны разработать основу не только для того, как собирать данные, но и для того, как они хранятся, чтобы обеспечить их применимость. Затем они должны выяснить, какую информацию могут дать данные, и задать правильные вопросы алгоритма машинного обучения. Это требует определенного уровня творческого мышления, поскольку данные ничего вам не скажут, если вы не зададите конкретный вопрос. После того, как желаемые данные собраны, data scientist должен сделать рекомендации для действий, основанных на этих данных. И здесь начинается самое интересное, поскольку рекомендации могут быть самые различные.

Одной из приятных историй в этом отношении является исследование крупнейшей мировой компании в области экспресс-доставки, специализированных перевозок и услуг логистики UPS. Компания максимально исключила левые повороты, чтобы сделать свои услуги поставки более эффективными. Исследование UPS было основано на многолетнем изучении привычек водителя, моделей трафика и многого другого.

Однако миру известны и другие примеры, такие, как крах американского инвестиционного банка Lehman Brothers, впоследствии приведший к всемирному экономическому кризису. Тогда в 2008 году банк выдал кредитов на $680 млрд, при этом обладая капиталом всего в $22,5 млрд. Аналитика показывала, что при такой уязвимой структуре снижение стоимости рынка жилья на уровне 3-5% разом лишало бы банк всего капитала. С началом ипотечного кризиса именно так и произошло, поскольку рекомендации дата-сайентистов если и были, то окончательные решения по ним оказались губительными для всей мировой экономики.

Наука о данных

По мнению аналитиков Поляков Финанс, к 2020 году для специалистов по данным будет открыто более 2,7 млн. рабочих мест. Эти вакансии будут включать инженеров данных, разработчиков программного обеспечения и криптовалюты, специалистов по аппаратному обеспечению ИИ. Исследователи данных должны быть знакомы с языками программирования и аппаратными и программными системами, такими как Python, PyTorch, Hadoop, Spark, язык программирования R и т. д. Люди, работающие на этих работах, получат возможность создавать программное обеспечение для искусственного интеллекта, создавать новые технологии и оптимизировать целые сектора бизнеса так, как никогда раньше.

Будущее науки о данных будет иметь огромное влияние не только на секторы, получающие выгоду, но также, вероятно, на весь мир, поскольку отходы являются колоссальными во многих направлениях экономики. Таким образом, анализ big data приведет не только к снижению затрат и повышению эффективности, но и потенциально к снижению загрязнения окружающей среды.

#ПоляковФинанс #ПьерПоликарпов #polyakovfinance #poliakovfinance #polfinance #bigdata #big_data #datascience #datascientist

3434
15 комментариев

Через сто лет жрецы будут говорить - дата показала будет дождь, смотря в загадочный святящийся прямоугольник. 

18
Ответить

90% из data - garbage

2
Ответить

99%

11
Ответить

У меня появляются последователи 90% секты

2
Ответить

Но уже к 2025 году каждый день будет создаваться 175 миллиардов терабайт данных.

Как там кстати дела с записью данных на ДНК-носители? Развивают технологию или забросили?

1
Ответить

Это неинтересно, немодно и даже, прости господи, неполиткорректно - вдруг выяснится, что некоторые расы ровнее  
 

15
Ответить

Дата-саентист (ученый в области данных) это лишь одно из направлений по работе с данными. Возможно таких направлений станет очень много, как в аналитике и тестировании, поэтому станут востребованы специалисты более узкого профиля. Например, дата-фильтровщики, дата-сортировщики, дата-менеджеры, архитекторы данных и т.д.

Большой объем предполагает огромные риски неправильно обработать данные на том или ином этапе, поэтому каждый будет отвечать за свою маленькую часть и знать её на самом высоком уровне.

5
Ответить