Publicis Groupe
23

Love, Social Media and Robots

В закладки

Как облегчить и ускорить исследовательскую работу с помощью синергии профессионалов и правильных методов машинного обучения — три примера от Publicis Groupe Russia.

Социальные медиа — один из самых полезных источников информации для исследования современного потребителя. Как люди воспринимают бренд, в каких ситуациях используют продукт, какие тренды сегодня набирают обороты — мы можем послушать развернутые мнения в реальном времени практически на любую тему. Нужно только настроить систему мониторинга, и миллионы упоминаний становятся доступны для анализа.

Но как не утонуть в этом массиве слабоструктурированных данных и не упустить ценную информацию? Возможно ли ускорить работу по поиску инсайтов в огромном потоке сообщений и каким образом?

Об эффективных методах текстового анализа, распознавании объектов в видео-контенте и о том, что случается, когда в мир аналитики соцмедиа врываются data scientists, рассказывают Лилия Мусина (Analytics & Insights Director Publicis Groupe Russia) и Михаил Степнов (Head of Advanced Analytics Publicis Groupe Russia).

Зачем мы это делаем

Чаще всего мы проводим социальный медиаанализ в связке с ML-алгоритмами для решения трех типов задач:

  1. определение ситуаций потребления и аудиторных сегментов (которые дальше служат основой для коммуникационных и таргетированных решений);
  2. проверка и детализация стратегических гипотез (например, действительно ли ЗОЖ приобретает более осознанный подход, какие тенденции выражены сильнее?);
  3. и, пожалуй, самый животрепещущий вопрос: какой контент публиковать — какие элементы в тексте, картинке и даже в видео больше всего влияют на вовлеченность пользователя?

Раньше для этих целей медиааналитики вычитывали небольшую выборку сообщений и, как итог, выдавали условный набросок идей на заданную тему. Теперь с помощью машинного обучения мы получаем полноценный качественный и количественный анализ.

Beyond the data we go: как мы работаем с текстами из соцмедиа

Прежде всего хочется отметить, что нам «повезло» — мы разговариваем на русском языке. Он входит в четвертую категорию сложности изучения — в среднем не носителю языка нужно потратить около 1100 часов, чтобы научиться относительно свободно разговаривать на русском. Сложнее только языки с иероглифической знаковой системой.

Что же нужно делать, чтобы облегчить работу со сложным текстовым массивом?

  • Главное — не паниковать.
  • Убрать из массива цифры, имена, предлоги (при этом не исключать частицу «не»).
  • Привести все слова к исходным формам и исключить нерелевантный контент из массива данных (спам, рекламу, ненормативную лексику и пр.).

На мой взгляд, удаление ненормативной лексики в такого рода анализе часто неоправданно, так как могут потеряться важные для заказчика инсайты. Как сказал классик нашего времени: «Мат есть главная жемчужина великого русского языка». Другой вопрос — публиковать результаты анализа в корректных формулировках, и с этим уже должен справляться человек».

Михаил Степнов
Head of Advanced Analytics Publicis Groupe Russia

Список конкретных техник текстового и визуального анализа

  1. Первый метод — кластеризация, т.е. разделение текстов на однородные, связанные между собой группы.

    В этом методе есть очевидная проблема. Кластеры создают машины (это т. н. unsupervised learning), и по какому принципу они сформированы по умолчанию неизвестно. Каждый раз это новая история, которая нуждается в интерпретации человеком.

  2. Другой метод — расчет связей слов. Он показывает, с какой частотой и вероятностью одно слово употребляется в паре с другим.

    Здесь тоже важно быть на страже здравого смысла — например, мы можем получить стопроцентную связь между словами «Путин» и «краб». Никакой политики: если во всем массиве комментариев слово «краб» упоминается один раз и встречается в предложении «Путин ездил на Камчатку и ел камчатского краба», то «крабу» больше не за что зацепиться.


  3. Третья техника — это распознавание объектов на изображениях и видео. Нейросеть способна идентифицировать объекты в кадрах и проанализировать, какой набор элементов дает наибольшее влияние на целевой показатель (engagement rate, ad recall и др.).

Case study: реальные примеры

1. Для одного бренда необходимо было выявить ситуации, в которых люди испытывают стресс. Мы собрали все публичные сообщения по теме (это около 150 000 упоминаний) и применили к ним метод кластеризации. На выходе у нас получилось 9 оцифрованных и приоритизированных источников стресса.

Прелесть метода в том, что:

а) машина за несколько минут обработала и сгруппировала огромный массив данных;

б) смогла показать неочевидные ситуации стресса — например, отказ от курения и проблемы лишнего веса.

Если бы аналитик выполнял поиск самостоятельно, он вряд ли бы назвал эти ситуации причинами стресса (особенно если сам с ними не сталкивался). Машина же не полагается на личный опыт и показывает абсолютно все, даже небольшие сегменты.

Лилия Мусина
Analytics & Insights Director Publicis Groupe Russia

3. И последний кейс с оценкой эффективности контента. У нас было большое количество рекламных роликов по всем рекламодателям телеком-категории и показатель, характеризующий их эффективность (в нашем случае ad recall). Мы прогнали ролики через предобученную нейросеть, которая собирала все объекты на кадрах видео и связывала их с целевой переменной. Результат оказался неожиданным: наиболее значимо на узнаваемость рекламы в телеком-индустрии влияет цветовая гамма видео — чем больше ярких теплых цветов на экране, тем лучше.

Что в итоге

  • Связывать Data Science с маркетингом можно и нужно. Это путь, которым активно идем мы, Publicis Groupe Russia, и рекомендуем идти другим.

  • Все методы текстового анализа довольно просты, они описаны в открытых источниках и доступны всем для применения в работе. Важно знать, где и как использовать их наиболее эффективно.

  • Это история не про замену человека машинным обучением, а про то, как облегчить и ускорить исследовательскую работу, сделать ее более продвинутой. Потому что эффективность — не в отдельно взятых машинных инструментах и не в отдельной команде, а в синергии работы профессиональных и увлеченных своим делом людей и правильных методов машинного обучения.

Материал опубликован пользователем.
Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать
{ "author_name": "Publicis Groupe", "author_type": "self", "tags": [], "comments": 0, "likes": 0, "favorites": 0, "is_advertisement": false, "subsite_label": "unknown", "id": 108405, "is_wide": true, "is_ugc": true, "date": "Fri, 21 Feb 2020 15:30:57 +0300", "is_special": false }
Создать объявление на vc.ru
Сервисы
Семь сервисов, которые помогут техподдержке решать проблемы, а не создавать их
Пока коронавирус медленно и верно загоняет бизнес в кризис, самое время начать уменьшать издержки. Сегодня я расскажу…
(function(d, ver) { var s = d.createElement('script'); s.src = 'https://specials-f378ef5.gcdn.co/Covid19Quiz/all.min.js?' + ver; s.async = true; var container = d.getElementById('covid-quiz'); if (container) { s.onload = function() { new Covid19Quiz.Special({ css: 'https://specials-f378ef5.gcdn.co/Covid19Quiz/all.min.css?' + ver, container: container, location: 'article', share: { url: '', title: '', } }); }; } d.body.appendChild(s); })(document, '87111422');
0
Комментариев нет
Популярные
По порядку

Прямой эфир