{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

21 фев 2020 21.02.2020

Love, Social Media and Robots

Как облегчить и ускорить исследовательскую работу с помощью синергии профессионалов и правильных методов машинного обучения — три примера от Publicis Groupe Russia.

Социальные медиа — один из самых полезных источников информации для исследования современного потребителя. Как люди воспринимают бренд, в каких ситуациях используют продукт, какие тренды сегодня набирают обороты — мы можем послушать развернутые мнения в реальном времени практически на любую тему. Нужно только настроить систему мониторинга, и миллионы упоминаний становятся доступны для анализа.

Но как не утонуть в этом массиве слабоструктурированных данных и не упустить ценную информацию? Возможно ли ускорить работу по поиску инсайтов в огромном потоке сообщений и каким образом?

Об эффективных методах текстового анализа, распознавании объектов в видео-контенте и о том, что случается, когда в мир аналитики соцмедиа врываются data scientists, рассказывают Лилия Мусина (Analytics & Insights Director Publicis Groupe Russia) и Михаил Степнов (Head of Advanced Analytics Publicis Groupe Russia).

Зачем мы это делаем

Чаще всего мы проводим социальный медиаанализ в связке с ML-алгоритмами для решения трех типов задач:

определение ситуаций потребления и аудиторных сегментов (которые дальше служат основой для коммуникационных и таргетированных решений);
проверка и детализация стратегических гипотез (например, действительно ли ЗОЖ приобретает более осознанный подход, какие тенденции выражены сильнее?);
и, пожалуй, самый животрепещущий вопрос: какой контент публиковать — какие элементы в тексте, картинке и даже в видео больше всего влияют на вовлеченность пользователя?

Раньше для этих целей медиааналитики вычитывали небольшую выборку сообщений и, как итог, выдавали условный набросок идей на заданную тему. Теперь с помощью машинного обучения мы получаем полноценный качественный и количественный анализ.

Beyond the data we go: как мы работаем с текстами из соцмедиа

Прежде всего хочется отметить, что нам «повезло» — мы разговариваем на русском языке. Он входит в четвертую категорию сложности изучения — в среднем не носителю языка нужно потратить около 1100 часов, чтобы научиться относительно свободно разговаривать на русском. Сложнее только языки с иероглифической знаковой системой.

Что же нужно делать, чтобы облегчить работу со сложным текстовым массивом?

Главное — не паниковать.
Убрать из массива цифры, имена, предлоги (при этом не исключать частицу «не»).
Привести все слова к исходным формам и исключить нерелевантный контент из массива данных (спам, рекламу, ненормативную лексику и пр.).

На мой взгляд, удаление ненормативной лексики в такого рода анализе часто неоправданно, так как могут потеряться важные для заказчика инсайты. Как сказал классик нашего времени: «Мат есть главная жемчужина великого русского языка». Другой вопрос — публиковать результаты анализа в корректных формулировках, и с этим уже должен справляться человек».

Михаил Степнов, Head of Advanced Analytics Publicis Groupe Russia

Список конкретных техник текстового и визуального анализа

Первый метод — кластеризация, т.е. разделение текстов на однородные, связанные между собой группы.
В этом методе есть очевидная проблема. Кластеры создают машины (это т. н. unsupervised learning), и по какому принципу они сформированы по умолчанию неизвестно. Каждый раз это новая история, которая нуждается в интерпретации человеком.
Другой метод — расчет связей слов. Он показывает, с какой частотой и вероятностью одно слово употребляется в паре с другим.
Здесь тоже важно быть на страже здравого смысла — например, мы можем получить стопроцентную связь между словами «Путин» и «краб». Никакой политики: если во всем массиве комментариев слово «краб» упоминается один раз и встречается в предложении «Путин ездил на Камчатку и ел камчатского краба», то «крабу» больше не за что зацепиться.
Третья техника — это распознавание объектов на изображениях и видео. Нейросеть способна идентифицировать объекты в кадрах и проанализировать, какой набор элементов дает наибольшее влияние на целевой показатель (engagement rate, ad recall и др.).

Case study: реальные примеры

1. Для одного бренда необходимо было выявить ситуации, в которых люди испытывают стресс. Мы собрали все публичные сообщения по теме (это около 150 000 упоминаний) и применили к ним метод кластеризации. На выходе у нас получилось 9 оцифрованных и приоритизированных источников стресса.

Прелесть метода в том, что:

а) машина за несколько минут обработала и сгруппировала огромный массив данных;

б) смогла показать неочевидные ситуации стресса — например, отказ от курения и проблемы лишнего веса.

Если бы аналитик выполнял поиск самостоятельно, он вряд ли бы назвал эти ситуации причинами стресса (особенно если сам с ними не сталкивался). Машина же не полагается на личный опыт и показывает абсолютно все, даже небольшие сегменты.

Лилия Мусина, Analytics & Insights Director Publicis Groupe Russia

3. И последний кейс с оценкой эффективности контента. У нас было большое количество рекламных роликов по всем рекламодателям телеком-категории и показатель, характеризующий их эффективность (в нашем случае ad recall). Мы прогнали ролики через предобученную нейросеть, которая собирала все объекты на кадрах видео и связывала их с целевой переменной. Результат оказался неожиданным: наиболее значимо на узнаваемость рекламы в телеком-индустрии влияет цветовая гамма видео — чем больше ярких теплых цветов на экране, тем лучше.

Что в итоге

Связывать Data Science с маркетингом можно и нужно. Это путь, которым активно идем мы, Publicis Groupe Russia, и рекомендуем идти другим.
Все методы текстового анализа довольно просты, они описаны в открытых источниках и доступны всем для применения в работе. Важно знать, где и как использовать их наиболее эффективно.
Это история не про замену человека машинным обучением, а про то, как облегчить и ускорить исследовательскую работу, сделать ее более продвинутой. Потому что эффективность — не в отдельно взятых машинных инструментах и не в отдельной команде, а в синергии работы профессиональных и увлеченных своим делом людей и правильных методов машинного обучения.

2 показа

69 открытий

Комментарии

Написать комментарий...

-3 комментариев

Раскрывать всегда