Лого vc.ru

Почему Big Data постоянно путают с маркетингом и ИТ

Почему Big Data постоянно путают с маркетингом и ИТ

Преподаватели Школы новых медиа НИУ ВШЭ Константин Романов и Александр Пятигорский, который также является директором по цифровой трансформации «Билайна», написали для vc.ru колонку о главных заблуждениях по поводу больших данных — примерах использования технологии и инструментах. Авторы предполагают, что публикация поможет руководителям компаний разобраться в этом понятии.

Поделиться

Мифы и заблуждения о Big Data

Big Data — это не маркетинг

Термин Big Data стал очень модным — его используют в миллионах ситуаций и в сотнях разных интерпретаций, зачастую не имеющих отношения к тому, чем он является. Часто в головах людей происходит подмена понятий, и Big Data путают с маркетинговым продуктом. Более того, в некоторых компаниях Big Data является частью маркетингового подразделения. Результат анализа больших данных действительно может быть источником для маркетинговой активности, но не более того. Посмотрим, как это работает.

Если мы определили список тех, кто покупал в нашем магазине товары на сумму более трех тысяч рублей два месяца назад, а затем послали этим пользователям какое-то предложение, то это типичный маркетинг. Мы выводим понятную закономерность из структурных данных, и используем ее для увеличения продаж.

Однако если мы соединим данные CRM с потоковой информацией, например, из Instagram, и проанализируем их, то найдем закономерность: человеку, который снизил свою активность в среду вечером и на чьей последней фотографии изображены котята, следует сделать определенное предложение. Это уже будет Big Data. Мы нашли триггер, передали его маркетологам, а они его использовали в своих целях.

Из этого следует, что технология обычно работает с неструктурированными данными, а если данные и структурированы, то система всё равно продолжает искать в них скрытые закономерности, чего не делает маркетинг.

Big Data — это не ИТ

Вторая крайность этой истории: Big Data часто путают с ИТ. Это связано с тем, что в российских компаниях, как правило, именно ИТ-специалисты являются драйверами всех технологий, в том числе и больших данных. Поэтому, если всё происходит именно в этом отделе, для компании в целом создается впечатление, что это какая-то деятельность ИТ.

На самом деле, здесь есть коренное различие: Big Data — это деятельность, направленная на получение определенного продукта, что совсем не относится к ИТ, хотя без них технология и не может существовать.

Big Data — не всегда сбор и анализ информации

Есть ещё одно заблуждение относительно Big Data. Все понимают, что эта технология связана с большими объемами данных, но какого рода данные имеются в виду, не всегда ясно. Собирать и использовать информацию может каждый, сейчас это возможно не только в фильмах про Джеймса Бонда, но и в любой, даже совсем маленькой компании. Вопрос только в том, что именно собирать и как это использовать с пользой для себя.

Но следует понять, что технологией Big Data не будет являться сбор и анализ совершенно любой информации. Например, если вы соберете в социальных сетях данные о конкретном человеке, это не будет Big Data.

Что такое Big Data на самом деле

Big Data состоит из трех элементов:

  • данные;
  • аналитика;
  • технологии.

Big Data — не что-то одно из этих составляющих, а связка всех трех элементов. Часто люди подменяют понятия: кто-то считает, что Big Data — это только данные, кто-то — что технологии. Но по факту, сколько бы данных вы ни собрали, вы ничего с ними не сделаете без нужных технологий и аналитики. Если есть хорошая аналитика, но нет данных, — тем более плохо.

Если говорить о данных, то это не только тексты, но и все фотографии, размещаемые в Instagram, и вообще всё, что можно проанализировать и использовать для разных целей и задач. Другими словами, под Data понимаются огромные объемы внутренних и внешних данных различных структур.

Также нужна аналитика, потому что задача Big Data — построить какие-то закономерности. То есть аналитика — это выявление скрытых зависимостей и поиск новых вопросов и ответов на основе анализа всего объема разнородных данных. Причем Big Data ставит вопросы, которые напрямую из этих данных не выводим.

Если говорить об изображениях, то факт размещения вами своего фото в голубой футболке ни о чем не говорит. Но если использовать фотографию для Big Data-моделирования, то может выясниться, что именно сейчас вам следует предложить кредит, потому что в вашей социальной группе такое поведение говорит об определенном феномене в действиях. Поэтому «голые» данные без аналитики, без выявления скрытых и неочевидных зависимостей Big Data не являются.

Итак, у нас есть большие данные. Их массив огромен. Также у нас есть аналитик. Но как сделать так, чтобы из этих сырых данных у нас родилось конкретное решение? Для этого нам нужны технологии, которые позволяют их не просто складировать (а раньше и это было невозможно), но и анализировать.

Проще говоря, если у вас есть много данных, вам потребуются технологии, к примеру, Hadoop, которые дают возможность сохранить всю информацию в первозданном виде для последующего анализа. Такого рода технологии возникли в интернет-гигантах, поскольку именно они первыми столкнулись с проблемой хранения большого массива данных и его анализа для последующей монетизации.

Кроме инструментов для оптимизированного и дешевого хранения данных, нужны аналитические инструменты, а также надстройки к используемой платформе. К примеру, вокруг Hadoop уже образовалась целая экосистема из связанных проектов и технологий. Вот некоторые из них:

  • Pig — декларативный язык анализа данных.
  • Hive — анализ данных с использованием языка, близкого к SQL.
  • Oozie — поток работ в Hadoop.
  • Hbase — база данных (нереляционная), аналог Google Big Table.
  • Mahout — машинное обучение.
  • Sqoop — перенос данных из РСЦБД в Hadoop и наоборот.
  • Flume — перенос логов в HDFS.
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS и так далее.

Все эти инструменты доступны каждому бесплатно, но есть и набор платных надстроек.

Кроме того, нужны специалисты: это разработчик и аналитик (так называемый Data Scientist). Также необходим менеджер, способный понять, как эту аналитику применить для решения конкретной задачи, потому что сама по себе она совершенно бессмысленна, если ее не встраивать в бизнес-процессы.

Все три сотрудника должны работать в команде. Менеджер, который дает специалисту по Data Science задание найти определенную закономерность, должен понимать, что далеко не всегда найдется именно то, что ему нужно. В таком случае руководитель должен внимательно слушать, что же нашел Data Scientist, поскольку зачастую его находки оказываются более интересными и полезными для бизнеса. Ваша задача — применить это к бизнесу и сделать из этого продукт.

Несмотря на то, что сейчас есть множество разного рода машин и технологий, окончательное решение всегда остается за человеком. Для этого информацию нужно как-то визуализировать. Инструментов для этого довольно много.

Самый показательный пример — это геоаналитические отчеты. Компания «Билайн» много работает с правительствами разных городов и областей. Очень часто эти организации заказывают отчеты типа «Транспортная загруженность в определенном месте».

Понятно, что подобный отчет должен попасть к правительственным структурам в простой и понятной им форме. Если же мы предоставим им огромную и совершенно непонятную таблицу (то есть информацию в том виде, в каком ее получаем мы), они вряд ли купят такой отчет — он будет совершенно бесполезен, они не вынесут из него тех знаний, которые хотели получить.

Поэтому, какими бы хорошими ни были специалисты по Data Science и какие бы закономерности они ни находили, вы не сможете работать с этими данными без качественных инструментов визуализации.

Источники данных

Массив получаемых данных очень велик, поэтому его можно разделить на некоторые группы.

Внутренние данные компании

Хотя к этой группе относится 80% собираемых данных, этот источник не всегда используют. Часто это данные, которые, казалось бы, вообще никому не нужны, например, логи. Но если посмотреть на них под другим углом, иногда можно найти в них неожиданные закономерности.

Условно бесплатные источники

Сюда относятся данные социальных сетей, интернета и всего, куда можно бесплатно проникнуть. Почему условно бесплатно? С одной стороны, эти данные доступны каждому, но если вы являетесь крупной компанией, то получать их в размерах абонентской базы в десятки тысяч, сотни или миллионы клиентов — уже непростая задача. Поэтому на рынке существуют платные сервисы по предоставлению этих данных.

Платные источники

Сюда относятся компании, которые продают данные за деньги. Это могут быть телекомы, DMP, интернет-компании, бюро кредитных историй и агрегаторы. В России телекомы не продают данные. Во-первых, это экономически невыгодно, а во-вторых, запрещено законом. Поэтому они продают результаты их обработки, например, геоаналитические отчеты.

Открытые данные

Государство идет навстречу бизнесу и дает возможность пользоваться данными, которые они собирают. В большей степени это развито на Западе, но Россия в этом плане тоже идет в ногу со временем. Например, существует Портал открытых данных Правительства Москвы, где публикуется информация по различным объектам городской инфраструктуры.

Для жителей и гостей Москвы данные представлены в табличном и картографическом виде, а для разработчиков — в специальных машиночитаемых форматах. Пока проект работает в ограниченном режиме, но развивается, а значит, тоже является источником данных, который вы можете использовать для своих бизнес-задач.

Исследования

Как уже отмечалось, задача Big Data — найти закономерность. Часто исследования, проводимые по всему миру, могут стать точкой опоры для нахождения той или иной закономерности — вы можете получить конкретный результат и попытаться применить похожую логику в своих целях.

Big Data — это область, в которой работают не все законы математики. Например, «1»+«1» — это не «2», а значительно больше, потому что при смешении источников данных можно значительно усилить эффект.

Примеры продуктов

Многие знакомы с сервисом по подбору музыки Spotify. Он прекрасен тем, что не спрашивает у пользователей, какое у них сегодня настроение, а сам вычисляет это на основе доступных ему источников. Он всегда знает, что вам нужно сейчас — джаз или тяжелый рок. Это то ключевое отличие, которое обеспечивает ему поклонников и отличает от других сервисов.

Подобные продукты принято называть sense-продуктами — такими, которые чувствуют своего клиента.

Технологию Big Data применяют и в автомобилестроении. Например, это делает Tesla — в их последней модели есть автопилот. Компания стремится создать машину, которая сама будет везти пассажира туда, куда ему нужно. Без Big Data это невозможно, потому что если мы будем использовать только те данные, которые получаем напрямую, как это делает человек, то автомобиль не сможет усовершенствоваться.

Когда мы ведем автомобиль сами, то с помощью наших нейронов принимаем решения, исходя из множества факторов, которых мы даже не замечаем. Например, мы можем не осознать, почему решили не газовать сразу на зеленый свет, а потом окажется, что решение было верным — мимо вас пронеслась машина на бешеной скорости, и вы избежали аварии.

Также можно привести пример использования Big Data в спорте. В 2002 году генеральный менеджер бейсбольной команды Oakland Athletics Билли Бин решил разрушить парадигму того, как нужно искать себе спортсменов — он выбрал и обучил игроков «по цифрам».

Обычно менеджеры смотрят на успехи игроков, но в данном случае всё было иначе — чтобы получить результат, менеджер изучал, какие комбинации спортсменов ему нужны, обращая внимания на индивидуальные характеристики. Причем спортсменов он выбрал таких, которые сами по себе не представляли большого потенциала, зато команда в целом получилась настолько успешной, что выиграла двадцать матчей подряд.

Режиссер Беннетт Миллер в последствии снял фильм, посвященный этой истории, — «Человек, который изменил всё» в главной роли с Брэдом Питтом.

Технология Big Data полезна и в финансовом секторе. Ни один человек на свете не сможет самостоятельно и точно определить, стоит ли давать кому-то кредит. Для того, чтобы принять решение, производится скоринг, то есть строится вероятностная модель, по которой можно понять, вернет этот человек деньги или нет. Дальше скоринг применяется на всех этапах: можно, например, просчитать, что в определенный момент человек перестанет платить.

Большие данные позволяют не только заработать деньги, но и сэкономить их. В частности, эта технология помогла Министерству труда Германии сократить расходы на пособия по безработице на 10 млрд евро, так как после анализа информации стало понятно, что 20% пособий выплачивалось незаслуженно.

Также технологии применяются в медицине (особенно это характерно для Израиля). С помощью Big Data можно поставить значительно более точный анализ, чем это сделает врач с тридцатилетним стажем.

Любой доктор, когда ставит диагноз, опирается лишь на свой собственный опыт. Когда это делает машина, она исходит из опыта тысяч таких врачей и всех существующих историй болезни. Она учитывает то, из какого материала сделан дом пациента, в каком районе живет пострадавший, какая там задымленность и так далее. То есть она учитывает массу факторов, которые врачи не берут в расчет.

Примером использования Big Data в здравоохранении можно назвать проект Project Artemis, который внедрила Детская больница Торонто. Это информационная система, которая собирает и анализирует данные по младенцам в реальном времени. Машина позволяет анализировать 1260 показателей здоровья каждого ребенка ежесекундно. Этот проект направлен на прогноз нестабильного состояния ребенка и профилактику заболеваний у детей.

Большие данные начинают использовать и в России: например, подразделение больших данных есть у «Яндекса». Компания совместно с «АстраЗенекой» и Российским обществом клинической онкологии RUSSCO запустили платформу RAY, предназначенную для генетиков и молекулярных биологов. Проект позволяет улучшить методы диагностики рака и выявления предрасположенности к онкологическим заболеваниям. Платформа начнет работу в декабре 2016 года.

Другой проект Yandex Data Factory — «Снайпер», разработанный совместно с Магнитогорским металлургическим комбинатом и направленный на оптимизацию процессов плавки стали с помощью алгоритмов машинного обучения. Планируется, что конечный программный продукт будет выдавать оптимальное количество ферросплавов и добавочных материалов при производстве стали.

Big Data используется или может использоваться абсолютно во всех областях — вплоть до того, что данные мобильных операторов покупают даже службы водоснабжения. В частности, это характерно для Рима, где очень слабая система канализации, поэтому они с помощью Big Data прогнозируют активность в определенных частях города, что помогает им предотвращать прорывы труб и другие проблемы.

В общем, есть огромное число продуктов, которые строятся на Big Data. Они могут менять какую-то сферу тотально, как в здравоохранении, а могут лишь модифицировать ее, как в работе интернет-магазинов. В любом случае, Big Data открывает большие возможности. Нужно всего лишь научиться с ней работать.

Рубрика «Digital» выходит при поддержке проекта «Одноклассники»
Популярные статьи
Показать еще
Комментарии отсортированы
как обычно по времени по популярности

>> деятельность, направленная на получение определенного продукта, что совсем не относится к ИТ

Отличная фраза для статьи, в которой разоблачаются мифы и заблуждения, ага

Наркоманы в ВУЗах!

0

"Big Data состоит из трех элементов:

данные;
аналитика;
технологии"

Мне кажется, эти три пункта не являются составляющими big data. Не корректнее ли было разделять на самостоятельные уровни:

Big data
Data mining
Machine learning
?

0

Большие данные состоят ровно из 2 вещей:
- не гетерогенные данные(SQL, NoSQL, если очень упрощенно)
- большие объёмы, гораздо больше тех, с которыми привыкли работать в реляционных БД для получения единицы знаний, информации и проч.

Согласен. А вот процесс извлечения знаний, о котором полстатьи, это data mining или в русском варианте по версии Microsoft - интеллектуальный анализ данных.

0

Статья про BI, в которой BI упорно именуют Big Data..

Все проекты похожи на улучшенное использование GGIS технологий, тем более Big Data и родилась из Data Mining, изначально с геологоразведки и горного моделирования месторождений полезных ископаемых...

Мне каждый раз смешно когда люди пытаются серьезно ответить на вопрос что же такое big data и придать этому явлению какую-то значимость.

Ладно интеграторы - им продавать это все надо, а термин business intelligence подзатерся, вместе с data mining и predictive analytics. Но странно такое слышать от людей которые вроде как на практике этим занимаются не первый год.

Big data это чистый маркетинг. Такой же как "без ГМО" только корпоративного уровня. Единственное значимое явление это hadoop, он действительно сменил расстановку сил. Но и он по сути с точки зрения работы с данными не предоставляет ничего принципиально нового - тот же sql, те же методы машинного обучения. Дешевле, быстрее - да, но 99% того для чего сейчас продают hadoop считается и на обычных rdbms, особенно колоночных. И у корпораций всегда были на это деньги, а те что поумнее занималась этим еще 10 лет назад. Просто бигдатой это не называли.

big data - это просто дофига инфы, хотели рассказать про machine learning все же, видимо.

0

А можно назвать Big datа инструментом или набором инструментов, который можно применить и в маркетинге и в IT и "дофигагдееще"?

0

Анализ больших данных путают с анализом данных. Вопрос только в том, что считать по настоящему большими данными.

0

Возможность комментирования статьи доступна только в первые две недели после публикации.

Сейчас обсуждают
Алексей Кравцов

twitter.com/magnit_info?lang=ru

«Вжух»: реакция российских компаний на мем с котом и волшебной палочкой
0
Александр Кулев

Интересно, что забугорные дизайнеры рассуждают уже скорее как кодеры, а наши как-то все остаются художниками и людьми глубоко творческими.

Как решать интерфейсные задачи при помощи белой доски и маркера — советы дизайнера
0
Antony Sedov

Вжух, и через год об этом меме узнают в ОК и телевизоре.

«Вжух»: реакция российских компаний на мем с котом и волшебной палочкой
0
Илья Рецер

Тяжелые будни эсэмэмщиков. Это вообще считается профессией? За это сейчас платят или так, чьи-то дети балуются?

«Вжух»: реакция российских компаний на мем с котом и волшебной палочкой
0
Птиц

Мимо. Ради щепотки острого перца в рецепте брать целую банку перца за 214р? Вся идея комплектов в том, чтобы не бегать по магазинам и не покупать лишнее, которое потом лежит годами без дела или отправляется в мусорку.

«Азбука вкуса» и бывшая «Афиша-Еда» запустили сервис для доставки ингредиентов по рецептам журнала
0
Показать еще