Что такое “большие данные” / “big data”?

Эта тема стала очень популярна в последние годы среди всех, кто связан с информационными технологиями: от студентов (соответствующих факультетов/курсов) до действующих руководителей компаний. Но сбор и анализ больших объемов данных существовали всегда, статистические методы были разработаны еще в 19 веке.

С появлением новых технологий и инструментов стало возможным обрабатывать и анализировать намного большие и, на первый взгляд, никак не связанные между собой, бесструктурные объемы информации, что и привело к появлению термина "big data".

Что же такое – биг дата? Это не просто массив больших данных, это скорее процесс работы с этими данными, включающий в себя набор практик и инструментов по сбору, анализу, структурированию и управлению данными.

Одним из основных признаков big data является работа с неструктурированными данными, которые не имеют четкой организации или формата. Т.е. изначальным объектом биг даты является абсолютно рандомный (на первый взгляд) массив данных: небо голубое, воздух прохладный, в тарелке овсяная каша, на часах 11:52, настроение на троечку, пол ламинат, бензина в баке 1/4, а подруга третий час не отвечает на сообщение.

Однако, для работы с неструктурированными данными необходимы специальные инструменты и технологии, в том числе машинное обучение, обработка естественного языка, компьютерное зрение, и др., которые помогают:

1) собирать,

2) анализировать,

3) структурировать,

4) управлять,

5) применять полученные сведения с практической пользой.

И тут сразу возникает вопрос: кто будет это использовать? Да, друзья, большие данные неразрывно связаны с большим братом. Именно он озадачился этим вопросом, нашел и продолжает находить способы его решения, и, конечно, он сам и пользуется благами своего нелегкого труда.

Очевидно, что сами владельцы бизнесов не занимаются лично биг датой, у них для этого в штате присутствуют всякие data scientist'ы, data miner'ы, data digger'ы и прочие увлекательные специальности, на которые люди долго учатся. И тут мы приходим к ценности механизмов: софт + железо. И в данном случае железо скорее даже важнее, ведь какой бы гениальный код ни был написан, сам по себе он явно не потянет BIG data. Миллиарды людей, миллионы параметров, триллионы строк – для этого нужны огромные дата-центры, занимающиеся только этим.

Но и софт тоже не стоит на месте. ИИ, машин-/дип-лернинг, расширенная аналитика и прочее – все это ориентировано на биг дату: собирать, обрабатывать, каталогизировать, и (в конечном итоге) использовать: реклама, прямые продажи, и даже банальный политический контроль - все это качественно усиливается за счет применения биг даты.

--

В качестве вывода, конечно, хочется дать пару Bespale-советов. Как не стать жертвой биг даты? Не стать еще одной строчкой в базе у жадных капиталистов и кровожадных коммунистов?

Тут надо трезво смотреть на вещи и принять тот факт, что мы все – уже давно строчки, причем в огромном количестве баз данных одновременно.

Но что-то же можно сделать?

Примерно то же, что мы и делаем в своем анонимном телефоне BespalePhone:

✅Отрезать пути сбора информации, например, убрать Google из телефона, или, как минимум, отрезать ему доступ в сеть (по остальным каналам сбора информации - мыслим по аналогии).

✅Мусорить/пачкать/зашумлять им выдачу: меняем IDs/IPs/GPS/ОПСОСs/etc, рвем связи между старым и новым.

✅Отрезать пути использования. Поскольку после структурирования идет главная цель: контролировать (убедить, продать, направить, итд), самым простым решением будет не реагировать на рекламу, не быть ее потребителем вообще (например, отключить ее в своих девайсах полностью, или хотя бы просто не переходить по ссылкам, не кликать на баннеры, пролистывать рекламные посты итд), не позволять чужим мыслям и нарративам управлять собой, своими поступками и желаниями.

0
Комментарии
-3 комментариев
Раскрывать всегда