{"id":14293,"url":"\/distributions\/14293\/click?bit=1&hash=05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","hash":"05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","title":"\u0421\u043e\u0437\u0434\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0439 \u0441\u0435\u0440\u0432\u0438\u0441 \u043d\u0435 \u043f\u043e\u0442\u0440\u0430\u0442\u0438\u0432 \u043d\u0438 \u043a\u043e\u043f\u0435\u0439\u043a\u0438","buttonText":"","imageUuid":""}

26 ноя 2020 26.11.2020

Почему Big Data должны быть еще и Smart

Многие начинающие дата сайентисты и специалисты из смежных специальностей изначально относятся к теме Big Data с большим энтузиазмом. Спустя пару лет большинство таких специалистов становятся куда более скептичными, а сам по себе термин Big Data становится не более, чем buzzword. Почему Big Data не являются ценностью как таковые, и почему качество даже необходимых данных важнее количества?

Big Data не всегда полезны

Чаще всего Big Data воспринимается как некое сокровище, ценный ресурс, который позволяет создавать эффективные стратегии, оптимизировать процессы и т. д. Однако чем опытнее становится аналитик, тем более конкретные вопросы он задает. Что именно мы сможем узнать из этих данных? Нужна ли нам сейчас эта информация? Сколько будет стоит хранение данных, если сейчас они нам не нужны?

Работа с большими данным требует больших вычислительных мощностей. С развитием облачных хранилищ вычислительные мощности стали доступнее, однако на их содержание все равно требуются ресурсы. Одни и те же данные могут быть очень ценны для одной компании и совершенно бесполезны для другой. И во втором случае они станут чистым пассивом. Чтобы этого не случилось, необходимо анализировать их полезность еще до сбора и отправки в хранилище.

Большая часть всех Big Data в мире на текущий момент является мусором. Эти данные либо вообще бесполезны для тех, кто ими на данный момент владеет, либо содержат в себе столь мало полезной информации, что она даже не окупит затрат на обработку. По данным исследования Forrester, компании реально используют не больше 40% собранных ими данных.

Больше - не всегда лучше

Тактика “просто закинуть в ИИ как можно больше данных” уже не работает. Сайентисты понимают, что не каждая функция полезна, и качество данных важнее их количества. Необходимы только те данные, которое помогают проанализовать то, что важно в данный момент. Только работая с качественными данными, ИИ способен выдать полезный результат.

Помимо самих данных, необходима также инфраструктура для безопасного анализа, использования и передачи данных, а также разделения полезной информации и мусора. Хотя еще не все это осознали, данные должны быть не только большими, но и умными.

Почему данные должны быть умными

У Big Data есть 5 ключевых параметров:

объем;
скорость;
разнообразие;
достоверность;
ценность.

Ценность данных не всегда зависит от их объема или скорости, но они влияют на другие параметры. Если данные не разнообразны, не достоверны и в данный момент не имеют ценности, нет никакого смысла их собирать.

Данные должны быть не только большими, но и умными. Портал Wired дает следующее определение термину Smart Data:

“Smart Data” means information that actually makes sense. It is the difference between seeing a long list of numbers referring to weekly sales vs. identifying the peaks and troughs in sales volume over time.

На практике Smart Data - это та часть данных, которая может использоваться в данный момент для удовлетворения конкретных потребностей компании. Smart Data - это та часть Big Data, которая идет в презентацию и на основе которой принимаются решения.

Почему неSmart Data бесполезны и даже вредны

Представим, что двое специалистов в области Data Science работают над внедрением инструментов Big Data и машинного обучения в компаниях, в которых они работают. Но каждый выбрал свой подход. Первый специалист использует готовые инструменты, чтобы сэкономить время, и сразу же начинает собирать данные. Он передает все, что ему удалось собрать, в в инфраструктуру данных. Он также использует ML-алгоритмы для оптимизации результата.

Второй специалист хочет получить больше контроля над структурой данных, поэтому начинает писать собственные модули. На это уходит много времени, но в итоге он получает более компактные и точные данные. Компания экономит тысячи долларов, отказываясь от хранения терабайтов ненужной информации, при этом имеет столько же полезной информации, что и компания первого специалиста. Эти ресурсы можно реинвестировать в создание новых моделей для получения лучших результатов.

В реальности компании уже стараются организовать процесс так, чтобы сократить сбор ненужных данных, но все равно их алгоритмы продолжат перерабатывать тонны мусора. Без полезного наполнения данные остаются пассивом, на обработку которого тратятся дополнительные ресурсы. Акцент на Smart Data может стать решением, однако это будет лишь началом перехода к правильным техникам работы с данными

Жанн Чубуков, Head of Data Science, Andersen:

Профессиональное сообщество все больше приходит к разумному логическому заключению о том, что Big Data - это просто buzzword, который жрёт деньги с низкой отдачей и прежде чем строить Data Lake и Data Warehouse нужно всё же разобраться с бизнес-задачами, которые эта штука должна будет решать, чтобы данные были не только Big, но и reliable & smart. Собирать данные - не самоцель, цель - зарабатывать на этих данных, попутно сокращая операционные расходы и минимизируя "склады" (хранилища данных).

0 показов

109 открытий

Комментарии

Написать комментарий...

-3 комментариев

Раскрывать всегда