{"id":14284,"url":"\/distributions\/14284\/click?bit=1&hash=82a231c769d1e10ea56c30ae286f090fbb4a445600cfa9e05037db7a74b1dda9","title":"\u041f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0444\u0438\u043d\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u043d\u0430 \u0442\u0430\u043d\u0446\u044b \u0441 \u0441\u043e\u0431\u0430\u043a\u0430\u043c\u0438","buttonText":"","imageUuid":""}

«Внутри Instagram* и Snapchat создаётся матрица на­ших интересов»: как математика помогает определять тип людей Статьи редакции

Отрывок из книги «Десять уравнений, которые правят миром, и как их можете использовать вы» Дэвида Самптера, которую выпустило издательство МИФ.

Уравнение рекламы

Сначала я подумал, что это электронное письмо — спам. Оно начи­налось с приветствия: «Мистер Самптер:», а в мире мало реальных людей, которые используют двоеточие в начале письма. Даже когда я прочитал текст — просьбу комитета по предпринимательству, науке и транспорту Сената США в Вашингтоне, округ Колумбия, о беседе со мной, — я оставался скептиком.

Странным показался уже сам факт, что просьба пришла в форме электронного письма. Не знаю, чего стоило ожидать, но я с подозрением отнесся к со­седству длинного и подробного названия комитета и неформаль­ного обращения за помощью. Не сходилось.

Однако всё было правильно. Комитет Сената действительно хо­тел побеседовать со мной. Я отправил короткий положительныи ответ, и через несколько дней мы общались по скайпу с людьми из республиканской части комитета.

Они желали узнать о компании Cambridge Analytica, которую Дональд Трамп нанял для обраще­ния к избирателям в соцсетях и которая предположительно соби­рала данные о десятках миллионов пользователей Facebook*. В СМИ уже имелись две стороны истории Cambridge Analytica.

Одна сто­рона — блестящее представление Александра Никса, тогдашнего CEO, который заявлял, что использует алгоритмы в политических кампаниях для микротаргетинга. Другая — разоблачитель Крис Уайли с крашеными волосами, который утверждал, что помогал Никсу и его компании создать инструмент для «психологической войны». Впоследствии Уайли сожалел о своих действиях, которые позволили избрать Трампа, а Никс создавал свой бизнес в Африке, опираясь на свой «успех».

В 2017 году, за год до скандала, я детально исследовал алгоритм, который использовала Cambridge Analytica, и пришёл к заклю­чению, противоречащему обеим версиям событий — и Никса, и Уайли. Я сомневался, что компания могла повлиять на президент­ские выборы в США.

Она, конечно, пыталась, но я обнаружил, что методы, которые, по их словам, использовались для таргетинга из­бирателей, были с изъяном. Мои заключения привели к странной ситуации, когда я оспаривал оба имеющихся варианта изложения.

Вот почему комитет Сената желал поговорить со мной. Больше всего республиканцы из администрации Трампа весной 2018 года хотели узнать, что делать с грандиозным скандалом вокруг рек­ламы в социальных сетях.

Прежде чем мы сможем помочь сенаторам, нам нужно понять, как нас видят создатели соцсетей. Для этого мы будем рассматривать людей как наблюдения (так делают и компании) и начнём с самых активных и важных: подростков.

Эта группа желает увидеть как можно больше и как можно быстрее. Каждый вечер можно на­блюдать, как они — либо вместе на диване, либо (всё чаще) в оди­ночестве в спальне — быстро щелкают и листают странички на своих любимых платформах в соцсетях: Snapchat и Instagram*.

Через окошко своих телефонов они могут видеть невероятные картины мира: гномов, падающих со скейтбордов; пары, идущие на свидания «правда или действие»; собак, играющих в Fortnite; малень­ких детей, сующих руки в пластилин Play­Doh; девочек­-подростков, стирающих макияж; или «сцепленные» истории из текстовых диа­логов между воображаемыми студентами колледжа. Они переме­жаются сплетнями о знаменитостях, крайне редкими реальными новостями и, конечно, регулярной нескончаемой рекламой.

Внутри Instagram*, Snapchat и Facebook* создаётся матрица на­ших интересов. Это набор чисел в виде таблицы, где в строках — люди, а в столбцах — типы «постов» или «снимков», на которые они нажимают. В математике мы представляем таблицу подрост­ковых кликов в виде матрицы, которую обозначим M. Вот пример для иллюстрации в гораздо меньшем масштабе: так выглядит мат­рица некой соцсети для двенадцати пользователей.

Каждое число в матрице показывает, сколько раз подросток кликнул по конкретному типу постов. Например, Мэдисон по­смотрела 8 постов о еде, по 6 о косметике и Кайли Дженнер, ни одного о ютьюбере Пьюдипае и видеоигре Fortnite и 2 публика­ции о рэпере Дрейке.

Просто глядя на эту матрицу, мы можем получить хорошее пред­ставление о том, что за человек Мэдисон. Попробуйте представить её себе, а потом потратьте несколько секунд, чтобы вообразить некоторых других персонажей, которых я ввёл здесь, используя в качестве ориентиров просмотренные ими снимки. Не беспокоийтесь. Это не настоящие люди. Вы можете быть сколь угодно кате­горичными.

В матрице есть ещё несколько человек, похожих на Мэдисон. Например, Сэм любит косметику, Кайли Дженнер и еду, но прояв­ляет незначительный интерес к другим категориям. Есть и люди, которые резко отличаются от Мэдисон. Джейкоб, как и Лорен, предпочитает Пьюдипая и Fortnite. Некоторые не совсем вписыва­ются в два этих типа. Скажем, Тайлер любит Дрейка и косметику, но интересуется Пьюдипаем.

Уравнение рекламы — математический способ автоматически определять тип людей. Оно имеет следующую форму:

Оно измеряет корреляцию между различными категориями снимков. Например, если люди, которые обычно ставят лайк Кайли Дженнер, также ставят лайк и косметике, то r (косметика, Кайли) будет по­ложительным числом. В этом случае мы говорим, что существует положительная корреляция между Кайли и косметикой. Но если люди, которые ставят лайки Кайли, обычно не ставят их Пьюди­паю, r (Пьюдипай, Кайли) будет отрицательным числом, и мы назовем это отрицательной корреляцией.

Чтобы понять, как работает уравнение 7, разберем его шаг за шагом начиная с M (i,x). Это число в строке i и столбце x нашей матрицы M. Мэдисон 6 раз просматривала посты о косметике, поэтому M(Мэдисон, косметика) = 6: у нас строка i = Мэдисон, а столбец x = косметика.

В общем случае каждый раз, когда мы смотрим на число в строке i и столбце x матрицы, то видим M(i,x). Взглянем на Ḿ(х). Эта величина — среднее число постов в категории x, приходя­щееся на одного пользователя. Например, среднее число просмот­ренных публикаций о косметике для наших подростков таково:

Ḿ(косметика) = (6+6+0+0+9+6+7+3+0+4+7+0)/12 = 4.

Если мы вычтем среднюю заинтересованность в косметике из общего числа публикаций, просмотренных Мэдисон, то полу­чим:

M(i,x)Ḿ(х) = 6–4 = 2.

Это говорит нам, что Мэдисон интересу­ется косметикой выше среднего. Аналогично, вычислив Ḿ(Кайли) = 5, мы видим, что она также (слегка) выше среднего интересуется Кайли Дженнер, поскольку:

M(i,y)Ḿ(y) = 6–5 = 1, если i = Мэдисон, а y = Кайли.

А теперь переходим к мощной интересной идее, лежащей в ос­нове уравнения 7: если мы перемножим (M(i,x)Ḿ(х)) · (M(i,y)Ḿ(y)), то определим те интересы, которые, как правило, у людей общие. Для Мэдисон мы получаем:

Это говорит нам о том, что между её интересом к Кайли и кос­метике существует положительная корреляция.

Для Тайлера взаимоотношения между косметикой и Кайли отрицательные: (6 – 4) ∙ (1 – 5) = 2 ∙ (–4) = –8. Он про­являет интерес только к первой. Для Джейкоба величина снова положительна: (0 – 4) ∙ (0 – 5) = (–4) ∙ (–5) = 20, так как ему не нра­вятся ни первая, ни вторая (см. рис. 7).

Обратите внимание на один нюанс. И у Джейкоба, и у Мэдисон положительное значение, хотя у них противоположные взгляды на Кайли и косметику. Однако их взгляды предполагают, что Кайли и косметика коррелируют между собой, хотя Джейкоб вообще никогда не смотрел ни на ту, ни на другую. Поведение Тайлера в социальной сети не соответствует такой закономерности.

Мы можем произвести расчёты для каждого из подростков и сложить все такие величины. Получится сумма:

Знак Σi указывает, что мы берём сумму по всем двенадцати тинейджерам. Сложив все произведения, где перемножены отноше­ния подростков к косметике и к Кайли, получим:

2–8+20–16+10+8+6+2+20+0+9+16=69.

Бoльшая часть слагаемых положительна: это показывает, что дети имеют схожее отношение к Кайли и косметике. Среди тех, кто вносит свой положительный вклад в сумму, — Мэдисон и Джейкоб: 2 и 20 соответственно. Исключения — Тайлер, кото­рому не нравится Кайли, и Райан, которому не нравится косме­тика; зато Кайли Дженнер по душе. Именно эта пара дала слага­емые –8 и –16.

Рис. 7. Иллюстрация к вычислению корреляции между Каили и косметикои

Математики не любят больших чисел вроде 69. Мы предпочи­таем, чтобы они были меньше, лучше между 0 и 1, так их удобно срав­нивать. Для этого мы добавим в уравнение 7 знаменатель (нижнюю часть дроби). Я не стану подробно разбирать это вычисление, но если мы подставим все наши числа, то получим:

Мы получили одно ­единственное число 0,51, которое измеряет корреляционную зависимость между косметикой и Кайли. Значе­ние 1 показывало бы идеальную корреляцию между этими двумя типами постов, значение 0 говорило бы об отсутствии связи. Так что реальное значение 0,51 даёт нам среднюю корреляцию между любовью к косметике и к Кайли Дженнер.

Я понимаю, что провёл уже довольно много вычислений, но мы нашли только одно из пятнадцати важных чисел, отражающих предпочтения подростков! Нам бы хотелось узнать корреляцию не только между косметикой и Кайли, но и между всеми категори­ями: еда, косметика, Кайли, Пьюдипай, Fortnite и Дрейк.

К счас­тью, мы уже в курсе, как вычислить один коэффициент корреля­ции с помощью уравнения 7, — остаётся только подставлять в это уравнение каждую пару категорий. Именно это я сейчас и сделаю. Получится то, что известно под названием корреляционной мат­рицы, которую мы обозначим как R.

Если вы посмотрите на пе­ресечение строки «Кайли» и столбца «Косметика», то увидите найденное нами ранее число 0,51. Точно так же заполняются и ос­тальные строки матрицы — для всех пар категорий.

Например, Fortnite и Пьюдипай дают корреляцию 0,71. Но есть и такие пары, как Fortnite и косметика, которые дают коэффициент –0,74, то есть коррелируют отрицательно. Это означает, что геймеры, как пра­вило, не особо интересуются косметикой.

Корреляционная матрица группирует людей по типам. Когда я просил вас представить себе этих подростков и не стесняться быть категоричными, я предлагал вам самим построить такую мат­рицу. Корреляция Кайли/косметика относит к одному типу таких подростков, как Мэдисон, Алисса, Эшли и Кайли, а корреляция Пьюдипай/Fortnite относит к другой группе Джейкоба, Райана, Моргана и Лорен. А вот Тайлер и Мэтт не вполне подходят под такую простую категоризацию.

В мае 2019 года я спрашивал Дуга Коэна, специалиста по данным из Snapchat, о той информации о пользователях, которую они хра­нят в корреляционных матрицах. «Ну, это почти всё, что вы делаете в Snapchat, — отвечал он. — Мы смотрим, как часто наши пользо­ватели разговаривают в чатах с друзьями, сколько у них полос об­щения, какими фильтрами пользуются, как долго разглядывают карты, в скольких групповых чатах сидят, сколько времени тратят на просмотр контента или когда читают истории своих друзей. И мы смотрим, как эти действия коррелируют друг с другом».

Данные анонимны, поэтому Дуг не знает, чем занимаетесь кон­кретно вы. Но такие корреляции позволяют Snapchat категоризи­ровать пользователей — от «одержимых селфи» и «документалис­тов» до «див макияжа» и «королев фильтров», если пользоваться внутренней терминологией компании.

Как только компания узнаёт, что привлекает определённого пользователя, она даёт ему это в большом количестве. Слушая, как Дуг описывает свою работу по привлечению людей, я не мог не прокомментировать: «Погодите! Я, как родитель, стараюсь, чтобы мои дети пользовались телефоном меньше, а вы трудитесь, чтобы повысить их вовлеченность!».

Дуг парировал, слегка уколов конкурентов: «Мы не просто стараемся максимизировать время, проведённое в приложении, как традиционно делал Facebook*. Мы следим за уровнем участия, смотрим, как часто пользователи возвращаются. Мы помогаем им общаться с друзьями».

Snapchat не претендует на то, чтобы мои дети проводили у них всё свое время, но компания желает, чтобы они снова и снова воз­вращались. И по личному опыту могу сказать, что это работает.

*Meta, которой принадлежат Instagram и Facebook, признана в России экстремистской организацией и запрещена.

0
12 комментариев
Написать комментарий...
Nikita Plotnikov

Господи, как же плохо всё в этой статье. Начиная от дилетантской математики уровня "я изобрел ковариационные матрицы" и заканчивая абсолютно смешным представлением о том, как работает аналитика в больших компаниях.

Ответить
Развернуть ветку
Zumon

Напиши свою статью, ну или хотя бы аргументов накидай в чем автор ошибается касательно аналитики ;)

Ответить
Развернуть ветку
Nikita Plotnikov

В тексте 20 раз используется слово "корреляция", и все 20 раз в абсолютно некорректном значении — описанные взаимосвязи можно назвать как угодно, но не корреляцией, википедия в помощь. Мне кажется, этого факта достаточно, чтобы судить о тексте целиком и не иметь необходимости писать целую ответную статью. Более того, компания, в которой я работаю, не раскрывает инфу об атрибуции и категоризации юзеров — как, собственно, и любая другая компания. В связи с чем, к сожалению, остается поверить мне на слово :)

Ответить
Развернуть ветку
Трафик Директян

Можешь для дотошных дураков ответить - почему описанные взаимосвязи нельзя назвать корреляцией?

PS: В вики ходил, определение читал, все равно не понял. Слово 'корреляция', кстати, встретилось в тексте всего 4 раза)

Ответить
Развернуть ветку
Maxim Mazurov

Да вроде все норм в статье. Простыми словами объяснили как работает коллаборативный фильтеринг. Конечно в крупных компаниях все несколько сложнее, есть и гибридные модели и всяко другие вариации того же ML в пайплайнах рекомендательных движков. Но сама идея в целом остаётся такой же, просто фичей гораздо больше и механизмы работы с ними сложнее:)

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Nikita Plotnikov

Константин, мне кажется, вы хорошо описали то, как работает ML в DS-командах, занимающихся предиктивными моделями. Тем не менее, есть две проблемы:
1. Насколько я понимаю, задача подобного моделирования как раз в том, чтобы в процессе обучения алгоритм сам смог нарожать что-то вроде описанных ковариантных (ковариационных?) матриц и понять, как с ними лучше работать. С учетом количества данных на входе эта задача неподвластна человеку (поэтому ей и занимается машина), в статье же говорится, что это можно сделать одной универсальной формулой — хуякс и в продакшн. Такого не бывает.
2. Проблема данных: такой подход может хорошо сработать только с теми данными, которые у вас есть (то есть которые вы собираете сами). При этом на пользовательское поведение влияют тысячи других факторов, данных о которых у вас просто нет в наш прекрасный век c IDFA и прочими инструментами защиты перс. данных. Представим, что перед аналитиками условного Инстаграма стоит задача спрогнозировать churn группы юзеров Х. Они собрали хорошую модель и выяснили, что уменьшение количества котиков в рекомендациях связано с оттоком Х, и дают рекомендацию показывать больше котиков для этой группы. Залили в прод, накидали им котиков, смотрят через месяц — отток еще увеличился. Оказалось, что в телеграме появился канал с постами только про котиков, и волшебным образом юзеры группы Х оказались также юзерами телеги, и теперь закрывают свои потребности там. Короче говоря, использование подобных моделей сильно ограничено отсутствием (или обезличением) внешних данных, влияющих на метрики, которые эти модели должны прогнозировать. (Это в том числе к кейсу про зарядку телефона и кредиты — я не знаю, откуда у банков могут быть эти данные и как они вообще могут связать своего клиента с обладателем какого-то паттерна зарядки телефона).

TL;DR
1. Даже если представить, что работа только со своими данными может помочь качественно анализировать и предсказывать ключевые метрики, эта работа намного сложнее, чем взять какую-то универсальную формулу и увидеть по ней, что Васе нравится то же самое, что и Пете.
2. Такой формулы не существует, а задачи категоризации юзеров каждый раз могут решаться по-разному, и решаются они, как правило, не человеком, а машиной. То, что описано в статье — не популяризация основ, а корявое упрощение одного из миллиона кейсов.
3. Вся негативная коннотация моего первоначального коммента исходит из того, что "формула рекламы" — такой же кликбейт и желтизна, как "формула любви" или "формула счастья".

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Евстигней Иванов

Вероятно, книга написана для более простых обывателей)

Ответить
Развернуть ветку
Nice Man
Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Александр Пилигрим

Числа, верно числом можно измерить всё. Выкладки для специалистов. Но по теме статьи: сказана суть того что расчёты для бизнеса...И что это вмешивается в жизнь. Формируется ориентирование на маркетинг... Но ещё наблюдается... действия человека законо ли это...В таком ракурсе...Если я правельно понял тему статьи.

Ответить
Развернуть ветку
9 комментариев
Раскрывать всегда