Сервисы обязали раскрывать правила применения рекомендательных технологий — вот какие данные собирают некоторые из них

Например, Wildberries и Ozon, «ВКонтакте» и «Яндекс», а также разные онлайн-кинотеатры.

Источник: <a href="https://api.vc.ru/v2.8/redirect?to=http%3A%2F%2Fduma.gov.ru%2Fnews%2F57657%2F&postId=864090" rel="nofollow noreferrer noopener" target="_blank">Госдума</a>
Источник: Госдума

В июле 2023 года Владимир Путин подписал закон о регулировании рекомендательных алгоритмов — согласно ему, сайты должны публично рассказывать, как устроен их механизм рекомендаций. Тех, кто требование проигнорирует, сможет заблокировать Роскомнадздор (это касается и зарубежных сервисов).

С 1 октября, когда закон вступил в силу, российские компании начали публично раскрывать, что анализируют и зачем. Ниже собрали несколько примеров. Подробные справки можно изучить на сайтах самих сервисов.

Маркетплейсы

  • Среди данных, которые использует Wildberries: любые действия и запросы на сайте; время посещения сайта и длительность сессии; источники перехода на маркетплейс; регион, страна, часовой пояс на устройстве и геопозиция пользователя; IP-адрес, интернет-провайдер, данные сетевого трафика, устройство и ОС, браузер и файлы cookies; параметры экрана — разрешение, глубина цвета, размещение страницы на экране; данные из личного кабинета и выбираемый ПВЗ.
  • Ozon изучает, с какими товарами взаимодействовал покупатель — это около 300 характеристик, среди которых категория, бренд, цена, оценка, доступность экспресс-доставки. И вдобавок анализирует тип действия: покупка, просмотр карточки, добавление в корзину или в избранное. Учитывают также пол и возраст покупателя
  • «Яндекс Маркет» анализирует историю поиска товаров и покупок; просмотр товарных страниц; добавления в корзину и избранное; размеры купленной ранее одежды, а также бренды, отмеченные как любимые. Если у товара есть возрастная маркировка, учтут, например, и возраст.
  • «Сбермаркет» собирает данные о том, какие товары просматривал покупатель, что покупал и в каких количествах, как часто он выбирал товар со скидкой и когда без и «прочее».
  • «Мегамаркет» основывает рекомендации на «поведении» покупателя: какие страницы просматривает, на какие элементы интерфейса нажимает, что за товары добавляет в корзину, когда делал предыдущие заказы и из чего они состояли, а также были ли на эти товары скидки.

Часть сервисов учитывает также агрегированные данные по другим клиентам со схожим поведением.

Видеосервисы

  • «Кинопоиск» использует следующие данные: поисковые запросы; историю просмотров витрин и страниц контента; оценки; сохранение фильмов и сериалов в коллекции; продолжительность просмотра (закончил за день или неделю), досматриваемость и пересмотры. Во внимание принимают жанры, названия, сюжет, актёров, режиссеров, наличие у картины наград и премий.
  • Start собирает данные о том, что пользователь смотрит, когда и в каком жанре; что добавляет в избранное и как оценивает; досматривает ли единицу контента и как часто к ней возвращается. Опираются также на дату регистрации и IP-адрес, а ещё — на популярность картин, мнения редакции сервиса и опрошенных экспертов.
  • Premier анализирует интересы, которые пользователь выбрал при создании профиля, просмотры контентных страниц и самих картин, нажатия на рекомендации и добавления в избранное. Роль играют название, жанр, описание, длительность, оценки и отзывы на фильм и сериал, а также «данные [о единице контента] в открытом доступе».
  • More.tv называет среди анализируемых данных просмотры видео (жанр, актёры, название, описание), страницы картин, клики на рекомендации, добавление фильмов и сериалов в избранное и выставленные им оценки, а также глубину просмотра.
  • «Амедиатека» собирает «полностью анонимизированные данные об истории просмотров» — дата и время, досматриваемость, пересмотр, особенности самого проекта (жанр, год выпуска, длительность, рейтинг). «Никакие другие демографические данные не собираются — текущих достаточно, чтобы предположить, какой фильм может посмотреть пользователь после текущего», говорится в документе.
  • Kion пишет, что может использовать следующую информацию: историю просмотров, жанры, изготовителей контента (страна и студия) и актёров; данные о подключённом платёжном средстве, подписках и услугах; об устройстве и стране нахождения; IP-адрес и файлы-cookies; браузер и ОС; время использования сервиса, обращение к его определённым функциям и другое.
  • «Иви» учитывает поисковые запросы; просмотры фильмов, сериалов и трейлеров (жанр, актёры, режиссёр, сценаристы, год и страна выпуска); покупки контента и добавления в избранное; оценки и отзывы; скорость просмотра (скорее всего, речь о том, сразу пользователь досмотрел кино или нет — vc.ru); активность аккаунта в разное время суток и дней недели; скрытие предложенных рекомендаций.
  • Rutube использует данные о просмотрах (название, описание, категория), лайках и комментариях, использовании функции «Поделиться», а также о подписках на авторов.

При необходимости часть сервисов берёт в расчёт возраст зрителя.

Телеканалы, издания и форумы

  • «2х2» анализирует просмотренные на сайте страницы и нажатия на виджеты, а также данные из файлов cookies.
  • «Матч ТВ» пишет, что учитывает глубину и время просмотра страниц, дочитываемость публикаций и информацию файлы cookies.
  • Sports.ru собирает данные о страницах, которые посещал пользователь, — это заголовки, время создания текста, разделы, рейтинг и количество комментариев.
  • «Афиша» использует данные о просмотрах контентных страниц и анонсов и нажатий на них.
  • «Пикабу» учитывает как «явные» действия (комментарии, оценки), так и дополнительную информацию — факт и время просмотра публикации, содержание текстов, а также интересы пользователя, указанные в личном профиле.

Платформы для заказа еды

  • Среди данных, которые использует «Самокат»: товары в корзине, история заказов и частота покупок конкретных товаров, а также время заказа.
  • «Яндекс Еда» собирает историю заказов, геопозицию, средние чеки по заказам, рейтинг выбранных ресторанов и другое.
  • «Яндекс Лавка» учитывает историю покупок, а также нажатия на товары и просмотр карточек. Могут также подключить данные о времени суток и дне недели заказа — например, если человек каждые выходные покупает готовые завтраки.

Прочие сервисы

  • «ВКонтакте» при разработке рекомендаций — в том числе для контентных сервисов принимает во внимание отметки «Мне нравится», «Это не интересно» и «Поделиться», а также комментарии; добавление аудио в раздел «Моя музыка» или видео в «Мои видео»; частоту просмотра контента сообщества или пользователя; добавление автора в друзья, вступление в группу или подписка на паблик; регион нахождения, чтобы, например, предлагать мероприятия и трансляции.
  • «Яндекс Музыка» учитывает историю прослушивания (длительность, повторы, отказ от дослушивания, пропуск трека); добавление в подборки или присутствие трека в определённом плейлисте; лайки и дизлайки; предпочтения в настройках — это жанры и исполнители, настроение треков, похожесть на другой контент, выбор в пользу незнакомых песен; поисковые запросы.
  • «Букмейт» собирает данные о поисковых запросах, просмотрах витрин, чтениях и прослушиваниях, добавлениях в свою библиотеку, а также об оценках, отзывах и частоте сохранения цитат из текста. В самой книге берут в расчёт язык, жанры, название, текст, длительность, автора, чтеца, переводчика, издателя и описание.
  • HeadHunter анализирует данные о «любых действиях пользователя на сайте». В остальном среди собираемой информации: тексты резюме и вакансий; IP-адрес и файлы cookies; посещённые страницы и число визитов; нажатия на ссылки и элементы интерфейса; длительность пользовательской сессии; точки входа на сайт и выхода с него; страна и геопозиция пользователя, а также часовой пояс на устройстве и архитектура процессора; провайдер и браузер, в том числе его шрифты и плагины; параметры экрана; данные сетевого трафика и другое.
  • «Циан» основывает рекомендации, исходя из поведения пользователя: что он ищет и добавляет в избранное, запрашивает ли контакты владельца объявления; какие страницы посещает и сколько времени на них проводит; а также с какого браузера сидит и в какой стране.
  • Данные, которые собирает Kassir.ru, — в целом как у Wildberries и HeadHunter. Это запросы на сайте и посещённые страницы, IP-адрес и файлы cookies; точки входа на сайт и выхода с него; информация о кликах на ссылки и элементы интерфейса; страна, геопозиция и часовой пояс; браузер и его параметры; устройство входа, архитектура процессора и ОС; параметры экрана, данные сетевого трафика и другое. Учитывают также просмотры карточек мероприятий, добавления в корзину и покупки.
  • «Яндекс Go» использует данные о предыдущих поездках — это тарифы, маршруты, время начала и окончания поездки, время ожидания такси и успешность заказа, способ оплаты. Чтобы предлагать наиболее удобные точки прибытия или отправления, сервис может изучить агрегированные данные других пассажиров. Помимо этого, алгоритмы могут учитывать избранные адреса, поисковые запросы в «Картах» и «Навигаторе», а также заказы в «Еде» и «Лавке».
1616
9 комментариев

Ничего необычного, обычные наборы данных. Почему vc.ru нет в списке?! (-:
Но кое-кто уже:

4
Ответить

Совершенно, при чём далеко не полный. Можно было бы объединить всё что писали для конкретного ресурса и выдать одним массивом т к они все это собирают. К сожалению, многие думают что сбор данных это плохо, а на самом деле просто удешевляет способ доставки.

Ответить

Не вижу ничего "обычного" в наборе ягодок. Как раз таки очень необычно. Особенно сильный контраст с аналогами. Пока остальные изучают что и как я покупаю (или не покупаю), ягодки смотрят, какие файлы куки я загружаю. Ага, загрузил такой порнушку с порнхаба, думал посмотрю один, а посмотрела целая команда.

Ответить

Собирают данные, чтоб потом слить в сеть, классика

1
Ответить

Такие "обычные" наборы создают для их владельцев соблазн "одной левой" обеспечить себе миллионные премии. Пугает теперь только закон Горелкина.
Как думаете, кто-то реально устрашится?!

Ответить

интересно, а личные данные и местоположение собирают все эти проги вместе, или какая-то спецом старается?

Ответить

Причем, теперь, по воле закона, это интересно и правоохранителям.
Горелкин, огонь! :)

Ответить