«Большие данные» - это не только про продажи

Руководитель проекта Big Data АО «ЭР-Телеком Холдинг» Олег Маликов, о роли информационных технологий в продажах компании.

Большие данные – тренд последних нескольких лет. Их используют почти в 50% компаний в мире. Активнее всего в сфере телеком, IT и финансовых услуг, где информация о клиентском поведении становится главным конкурентным преимуществом. У операторов связи, банков – одни из самых больших баз данных, что позволяет проводить глубокий анализ накопленной информации для сегментации клиентов, анализа их потребностей, подбора сервисов и тарифов.

Собранные данные можно монетизировать, увеличивать продажи и прибыль предприятий, оптимизировать производство и иногда складывается ощущение, что Big Data – это секретное оружие продажников. Но это не так.

Большие данные используются в здравоохранении, в образовании, автомобилестроении, в HR, сельском хозяйстве и даже в профессиональном спорте. Простому человеку бывает даже трудно вообразить, где в реальном мире он может столкнуться с такой аналитикой и оставить свой цифровой след.

Автомобиле и авиастроение

Автомобиль такой же носитель информации как смартфон человека. Он может собирать данные о водителе, окружающей среде, подключенных устройствах, маршруте, дороге и т.д. Транспортная телематика используется на протяжении многих лет и не только автопроизводителями. Так, на гоночном автомобиле Formula 1 установлено более 130 сенсоров. Объем информации, собранной ими за 2 часа гонки, равняется нескольким томам энциклопедии.

Благодаря Big Data технологии могут оповестить водителя о плохих дорожных условиях, предупредить о неполадках, ближайших заправочных станциях. Известно, что такую аналитику применяют такие крупные концерны как BMW, Tesla, Toyota. Это помогает сделать машину более безопасной и функциональной.

Современный лайнер имеет на борту большое количество сенсоров, которые в реальном времени генерируют гигабайты данных. Компания Airbus стала применять цифровое проектирование, производство и обслуживание в новых моделях лайнеров.

Идея состоит в том, чтобы не хранить данные самописцев на борту, а передавать их на сервера, установленные на земле. Анализируя этот поток больших данных, программа выявляет слабейшие сигналы, которые могут свидетельствовать о грядущих неполадках, и заранее, задолго до того, как проблемы увидит техник с измерительным прибором, указать на источник возможных неприятностей. Для этого на борту устанавливается специальное оборудование, которое и собирает в полете весь массив данных, а после посадки скачивает их на сервер по мобильному интернету.

После обработки информации, формируется заключение о состоянии лайнера. Как ожидается, в 2023 году у каждого самолета может появиться виртуальный двойник. Следующий этап проекта – подключение салона: пассажирских кресел, багажных полок, тележек с питанием. Это позволит контролировать процесс, видеть, кто не пристегнул ремень, какая полка перегружена и т.д.

Здравоохранение

Источником данных для этой отрасли становится сам человек. Население планеты с каждым годом увеличивается, поэтому в прогнозировании эпидемий, борьбе с болезнями и усовершенствовании методов лечения, в частности в области анализа генома, можно серьезно продвинуться с помощью больших данных.

Крупные мировые медицинские центры инвестируют средства в компьютерное оснащение своих лабораторий, сетевые системы хранения данных. Один из примеров успешно решенных кейсов в США - электронная медицинская карта. В ней хранятся сведения о диагнозах пациента, анализах, лекарствах, проблемах со здоровьем, процедурах. Система может присылать уведомления пациентам о необходимости прохождения нового обследования.

Еще один знакомый и нам способ использования больших данных - постановка диагнозов с помощью носимых электронных устройств, которые собирают петабайты информации и формируют огромные массивы данных.

Развитие городской инфраструктуры

Анализ данных также применяется для развития городской среды, «умных городов». Используя технологии Big Data, можно оптимизировать потоки транспорта. Для этого берется в расчет передвижение автомобилей в режиме онлайн, анализируются социальные медиа и метеорологические данные. В Европе и Америке автобусы уже ждут опаздывающий поезд, а светофоры способны прогнозировать загруженность на дорогах, чтобы минимизировать пробки.

Российский рынок Big Data

Перечисленные мною кейсы демонстрируют уровень развития технологии за рубежом. В мировом масштабе российский рынок услуг и технологий Big Data пока невелик, но обладает высоким потенциалом и заметным ростом. В нашей стране технологию используют в основном в банковской сфере, энергетике, логистике, государственном секторе, телекоме и промышленности.

Так Сбербанк использует Big Data в сфере управления рисками, сегментации и оценке кредитоспособности клиентов, управлении персоналом, прогнозировании снижении очередей в отделениях, ВТБ – в сегментации и управлении оттоком клиентов, формировании финансовой отчетности, анализе отзывов в соцсетях и на форумах, в Газпромбанке большие данные используют для скоринга, противодействия мошенникам, получения отчетности и ряда других функций. В промышленности технология применяется на крупных производственных предприятиях, например, в «Сургутнефтегаз».

Активно эту технологию развивают и в операторском бизнесе – Ростелеком, Билайн, МТС, МегаФон, ЭР-Телеком. Применяется она в основном для мониторинга качества обслуживания клиентов, подбора персональных тарифных планов и услуг, повышения эффективности работы контакт-центров, прогнозировании нагрузок на сеть, но есть и нестандартные задачи.

Про эмоциональное выгорание сотрудников теперь тоже знает Big Data

В «ЭР-Телеком» (ТМ Дом.ru) совместно с HR мы начали работать над моделью, с помощью которой возможно будет выявлять эмоциональное выгорание и предсказывать увольнение сотрудников для массовых должностей и ключевых специалистов, чей уход критичен для компании.

Как? Анализируем корпоративную активность сотрудников: количество, время отправки писем, звонков. Мы не читаем содержимое писем, не слушаем разговоры. Нам достаточно оценки их поведения. Как выясняется, например, интенсивность переписки заметно меняется, когда человек выгорает. Если представить, то это выглядит так, что человек реже начинает звонить, меньше вовлекается в решение вопросов. Он понимает, что скоро уйдет. При этом, у нас нет цели «поймать» всех. Нам важно вычленить основное ядро, построить выборку, чтобы соблюсти баланс тех, кто с наибольшей долей вероятности покинет компанию в течение месяца.

При построении аналитической модели, мы работаем с экспертами подразделений, пытаемся определить наборы критериев, которые могут потенциально влиять на процесс и определять итоговый результат.

Естественно, ключевое место занимают обучающие выборки. За счет них удается построить набор поведенческих паттернов тех, кто действительно ушел из компании. В теории можно пойти дальше: найти сотрудников в социальных сетях, посмотреть их ленту, статусы. Все это сигналы и наборы признаков для анализа. Зная номер телефона, можно посмотреть, какие объявления и о чем давал сотрудник. Это лишь фантазия, я привожу примеры, чтобы продемонстрировать, как строится анализ и какие источники могут быть исследованы.

Продолжим. Представим, что на Avito мы увидели объявление специалиста о продаже квартиры. Скорее всего, он переезжает и с определенной долей вероятности скажет нам «до свидания». Или, предположим, он продает какие-то детские вещи. Значит, сотрудник нуждается в деньгах (или не нуждается, а просто избавляется от ненужного – серьезен вопрос цены). Еще одним сигналом может стать информация о родных. В случае, если супруг является обеспеченным человеком, то это может свидетельствовать о том, он спокоен за свое рабочее место и скорее всего работает для себя, для удовольствия.

Что мы получаем? Куча сигналов на входе, выборка для построения обучающего множества. Мы знаем сигналы тех, кто утек в прошлом месяце и пытаемся понять, что же у них общего.

Интернет все помнит

В современном мире источников для получения информации море и многие из них находятся в открытом доступе. К таким, например, относятся данные, касающиеся корпоративных клиентов в Spark Interfax.

Даже просто введя имя и фамилию человека в поисковую строку, вы найдете о нем массу информации, но она будет не упорядочена – соцсети, упоминание в СМИ, в списке спикеров на каких-либо конференциях и т.д. «Интернет знает про вас больше, чем вы знаете про себя» - фраза донельзя избитая, но довольна правдивая.

Помните поговорку: «Написанное пером не вырубить топором»? Ровно это же применимо и к информации в глобальной сети. Удалить информацию из интернета довольно сложно. Фактически, какие-то блоки информации могут быть удалены только виртуально. Сегодня для больших компаний типа Google удалить единичную информацию – это очень дорогая операция.

Представьте, у вас есть диск и вы постоянно пишите на него информацию, выкладываете в какие-то ячейки, и они каждый раз разного размера. И теперь вам нужно удалить какую-нибудь Марию Ивановну. Вы удаляете блок информации и у вас образуется дырка непонятного размера, которую очень сложно заполнить идентичным размером данных. Это называется фрагментация пространства.

Что делают? Для Марии Ивановны в базе данных вместо реального удаления просто появляется галочка «информация удалена», она перестает куда-либо выдаваться, но по факту в системе она есть, просто потому что ее дорого удалять. И она также может быть проанализирована, никаких гарантий что всю «Марию Ивановну» затерли нулями нет.

Вместо заключения

Так или иначе технологии меняют мир. Мы каждый день повсюду оставляем цифровые следы, зарегистрировавшись в Wi-Fi-сети, вызвав такси, включив цифровую приставку и переключив канал, открыв рекламное объявление, забив в поисковую строку любое слово. Огромные объёмы данных обрабатываются экспертами по аналитическим данным (data-scientists) и разработчиками (data-инженерами) и бережно хранятся в Дата-центрах для того, чтобы человек мог получить конкретные и нужные ему результаты максимально быстро.