Как собрать аудиторию по фотографиям пользователей «ВКонтакте» с помощью нейросети

В России по разным оценкам у 11-14% людей есть проблемы со зрением. Для бизнеса очкарики — масштабный и привлекательный рынок, а для рекламщиков — ад. Эту аудиторию трудно достать стандартными инструментами таргетинга. Главный таргетолог компании «Ашманов и партнёры» Артём Седов рассказал, как они с коллегами нашли 263 тысячи москвичей в очках во «ВКонтакте».

Тестируем нейросеть с коллегами из «Ашманов и партнёры»

Почему рекламодателям трудно найти очкариков

У меня с детства слабое зрение и мне ни разу не попадалась реклама очков или линз в интернете. Захотелось разобраться, почему рекламодателям трудно найти таких, как я — очкариков, и продать нам что-нибудь полезное.

В широком смысле меня заинтересовал вопрос, как таргетироваться на аудиторию без определённого возраста, которая не сидит в специальных пабликах, не читает статьи о близорукости и не гуглит последние модели очков с диоптриями. Я изучил, как российские рекламодатели в принципе работают с этим сегментом. Они используют несколько способов.

Опрашивают пользователей

  • Находят тематические опросы и парсят пользователей, которые положительно ответили на вопрос про плохое зрение.
  • Делают рекламную публикацию с опросником и таргетингом на широкую аудиторию, парсят пользователей с плохим зрением.
Пример опроса пользователей для сбора рекламной аудитории

Парсят сообщества

Популярных сообществ для людей со слабым зрением вроде бы нет, но есть сообщества клиник, магазинов оптики и врачей. С помощью парсеров можно выгрузить подписчиков или пользователей, которые взаимодействовали с контентом: комментировали, лайкали, участвовали в опросах.

Таргетируются на авторизованных через «ВКонтакте»

Во «ВКонтакте» есть таргетинг на пользователей, которые авторизовались на сайтах (например, клиник) через приложение соцсети.

Строят гипотезы

После 40 лет у большинства людей падает зрение. А ещё ухудшение зрения характерно для геймеров, офисных работников, молодых мам и так далее.

В итоге

У озвученных выше подходов есть недостатки. Либо рекламные деньги тратятся на необоснованно широкий охват. Либо таргетологу приходится вручную собирать аудиторию, но тогда охват получается очень узким — несколько десятков тысяч человек.

Как мы нашли 263 тысячи москвичей в очках

Если исходить из утверждения, что все кто, носит очки — люди с плохим зрением, то задача формирования аудитории сводится к поиску пользователей в очках. Проще всего её решить, если анализировать фотографии людей. Вопрос в том, как это сделать — не руками же перебирать.

Мы давно знакомы со Стасом Ашмановым. Стас — программист, специалист по нейронным сетям. Пару лет назад он начал искать продуктовое решение на базе технологий своей компании «Нейросети Ашманова». А мне нужен был парсер, чтобы работать со сложными данными. На том мы и сошлись: сделали парсер на базе нейросети и назвали его Puzzle.

Расскажу коротко, как он устроен.

Мы создали базу фото для нейронной сети, определяющей лица

  • Выгрузили фотографии людей из общедоступных источников: «ВКонтакте», Instagram, «Яндекс», Google — с помощью скриптов, написанных на Python.
  • Почистили выборку в ручном режиме, если в неё попало что-то кроме изображений людей.

Настроили детектор лиц

  • Можно использовать любой готовый детектор лиц. Например, обученный HOG-каскад из dlib для детекции лиц с возможностью запускать нейронную сеть на GPU (для ускорения).
  • На вход даём базу фото людей — на выходе получаем фотографии лиц, вырезанные из исходных фотографий.

Разметили лица с очками и без

  • Поделили лица на две категории: c очками помечаем 1; без очков — 0.
  • Для изображений с большим количеством деталей может потребоваться дополнительная разметка. Например, наша утилита Marker помогает размечать очки с помощью прямоугольников, и в результате сеть узнаёт очки на фото точнее. На выходе получаем набор размеченных фотографий с очками и файл с координатами разметки очков, который удобно использовать для дальнейшего обучения нейросети. В данной задаче этого не потребовалось: сеть отлично справляется с классификацией целых изображений лица с очками и без.

Настроили детектор очков

  • Основная модель — нейронная сеть Resnet-50. Архитектура сети модифицирована и портирована на нейросетевую библиотеку PuzzleLib.
  • На вход подаётся выборка лиц в очках и без. На выходе получаем вероятность от 0 до 1. 1 — человек в очках, 0 — не в очках.
  • Сопоставили людей из соцсетей с выходными данными сети — определили, носит человек очки или нет (порог от 0 до 1 можно выбирать по вкусу – у нас хорошо подошло значение 0,5).

В итоге

За 20 дней работы сервера мы сформировали выборку аудитории из Москвы, которая в очках для зрения на фото «ВКонтакте».

Москвичи в очках — кто эти люди

Во «ВКонтакте» 26,7 млн пользователей из Москвы и области (по данным рекламного кабинета «ВКонтакте»). Мы выяснили, что как минимум 1% из них носит очки для зрения.

Распределение пользователей в очках по половозрастным сегментам (мужчин — 55,89%, женщин — 44,11%)
Доля пользователей в очках среди общего количества пользователей в каждом сегменте
Появление пользователей в сети

Мы нашли самые популярные сообщества среди людей, которые носят очки, и поняли, что единственный признак, которых их объединяет — паблики, связанные с городом (в данном случае). Ещё раз убедились, что стандартный таргетинг по сообществам с этой аудиторией не работает.

Популярные сообщества среди людей со слабым зрением из Москвы

Найти людей с бородой, будущих мам и экстремалов

Поиск людей с плохим зрением — первое, что пришло в голову, чтобы протестировать нейросеть в поиске аудитории. На этой базе мы хотим отладить работу Puzzle, чтобы протестировать создание других сложных аудиторий: людей с бородой или усами, будущих мам, тусовщиков, спортсменов.

0
69 комментариев
Написать комментарий...
Наталья Миловидова

А чем вы лучше Memedia Vision?

Они уже давно используют компьютерное зрение для поиска целевой аудитори во ВКонтакте.

Сегодня у них в группе кейс вышел как искать гитаристов для музыкального проекта.

Приложение бесплатное кстати. Отлично работает в паре с другими парсерами.

Ответить
Развернуть ветку
Стас Ашманов

Подходы разные: мы находим всех пользователей из Вк по требуемому параметру (в простом кейсе в данной статье – только из Москвы, более 20 млн), а Мемедия анализирует загруженный пользователем список аккаунтов.
К слову, пару дней назад, когда они написали в Вк про детектор очков, я пытался воспользоваться их приложением Вк – ничего не работало. Пойду посмотрю, может, починили.

Ответить
Развернуть ветку
Seymour Sh

Ну, с точки зрения таргетинга - аудитория в 20 млн (просто громкая цифра) пользователей - это как из пушки по воробьям. Шума много результатов ноль. Открутиться тестово на такую аудиторию, при настройках 1 показ, CPM 30 руб. = 600000 рублей. Рационально ли?
Тут скорее подход Мемедии интереснее - загружаем уже отобранную базу и прогоняем через Memedia Vision - получаем максимально целевую аудиторию. Эффективность такого подхода будет в разы выше, а бюджет в разы ниже.
Размер имеет значение. Но, как правило, в таргетинге маленький размер базы лучше неадекватно большого. =)

Ответить
Развернуть ветку
Артём Седов

Не понятно откуда такие данные? 20 млн — это что? Мы такие данные умеем анализировать, но на выходе получаются списки скромнее объемом.

Что касается целевой аудитории, но она вся целевая. Аргумент в пользу размера целевой аудитории не ясен совершенно. Хорошо — это когда аудитория целевая и ее много.

Если нужно меньше:
1. Наложите фильтр в рекламном кабинете
2. Покажите нужному объему, создайте аудиторию по показу и показывайте этой аудитории рекламу повторно (если нужно).

Ответить
Развернуть ветку
Seymour Sh

Вот и мне тут стало интересно - 20 млн - это что? После прочтения предыдущего комментария.
Далее цитирую Вас:
Что касается целевой аудитории, но она вся целевая - это не так. "Моя целевая аудитория - все люди в очках" - это бред. Простите за прямоту. Это очень общий портрет ЦА. А как мы все помним, чем подробнее портрет ЦА, тем выше эффективность таргетированной рекламы.
Аргумент в пользу размера целевой аудитории не ясен совершенно. - где я писал, что размер ЦА это основа основ? Но все же более, чем уверен, что 20 млн - это из пушки по воробьям. Если взять линзы - сколько их нужно продать в штуках при рекламном бюджете 600000 руб., чтобы это было рентабельным вложением в рекламу?
Хорошо — это когда аудитория целевая и ее много. - совершенно верно. Но как правило так не бывает. Точнее понятие "много" очень относительно. Есть рынки, где 1000 это уже много.
Если нужно меньше:
1. Наложите фильтр в рекламном кабинете
2. Покажите нужному объему, создайте аудиторию по показу и показывайте этой аудитории рекламу повторно (если нужно).
В курсе, спасибо.

Вот только если обращаться к моему комментарию, то я там вообще о другом писал. И вы немного не поняли, видимо.

Ответить
Развернуть ветку
Артём Седов

Поясните.

20 млн — вы взяли с потолка. Речи о таком объеме аудитории не было совершенно.

Есть рынки, которые очень интересуются конкретно этой аудиторией. В чистом виде аудитория людей с плохим зрением с простейшими половозрастными и географическими фильтрами — целевая аудитория для них.

Нужно пересекать еще с чем-то? Да не вопрос. Если очень хочется взять очкариков конкретного сообщества, можно пересечь два списка. Любую отобранную базу можно пересечь с этим списком.

Ответить
Развернуть ветку
Seymour Sh

Поясняю: цифру я взял из комментария выше на который отвечал, а не с потолка: мы находим всех пользователей из Вк по требуемому параметру (в простом кейсе в данной статье – только из Москвы, более 20 млн)...(с)
Но сейчас понял, что математика не сходится. И скорее всего это не выход, а вход.

Ответить
Развернуть ветку
Стас Ашманов

Ну хорошо, что вы перечитали мой комментарий и поняли, что это 20+ млн москвичей на входе, из которых мы нашли 263 тысячи людей в очках.
Об этом и в статье написано: вероятно, вы её не читали или прочитали невнимательно.

Ответить
Развернуть ветку
Seymour Sh

.

Ответить
Развернуть ветку
Aleks Siv

20 млн москвичей??? И это только активных пользователей ВК! Как это возможно вообще, прорыв в статистике просто, по официальным данным там-то всего около 12.

Ответить
Развернуть ветку
Стас Ашманов

Владельцы страниц Вк указывают город произвольно, как хотят. Там 17+ млн страниц с городом "Москва", а с Московской областью – 26+ млн.

Ответить
Развернуть ветку
Артём Седов

ВК говорит что их больше. Это в том числе приезжие, боты, дубли и т.д. Ниже — скрин из рекламного кабинета.

Ответить
Развернуть ветку
66 комментариев
Раскрывать всегда