Ученые, занимающиеся данными, должны разработать основу не только для того, как собирать данные, но и для того, как они хранятся, чтобы обеспечить их применимость. Затем они должны выяснить, какую информацию могут дать данные, и задать правильные вопросы алгоритма машинного обучения. Это требует определенного уровня творческого мышления, поскольку данные ничего вам не скажут, если вы не зададите конкретный вопрос. После того, как желаемые данные собраны, data scientist должен сделать рекомендации для действий, основанных на этих данных. И здесь начинается самое интересное, поскольку рекомендации могут быть самые различные.
Через сто лет жрецы будут говорить - дата показала будет дождь, смотря в загадочный святящийся прямоугольник.
90% из data - garbage
99%
У меня появляются последователи 90% секты
Но уже к 2025 году каждый день будет создаваться 175 миллиардов терабайт данных.
Как там кстати дела с записью данных на ДНК-носители? Развивают технологию или забросили?
Это неинтересно, немодно и даже, прости господи, неполиткорректно - вдруг выяснится, что некоторые расы ровнее
Дата-саентист (ученый в области данных) это лишь одно из направлений по работе с данными. Возможно таких направлений станет очень много, как в аналитике и тестировании, поэтому станут востребованы специалисты более узкого профиля. Например, дата-фильтровщики, дата-сортировщики, дата-менеджеры, архитекторы данных и т.д.
Большой объем предполагает огромные риски неправильно обработать данные на том или ином этапе, поэтому каждый будет отвечать за свою маленькую часть и знать её на самом высоком уровне.