Как «Яндекс» защищает пользователей от мошеннической и запрещённой рекламы с помощью новых ML-моделей

Спойлер: на 33% лучше. Рассказываем, как нам это удаётся.

Как «Яндекс» защищает пользователей от мошеннической и запрещённой рекламы с помощью новых ML-моделей

Несмотря на то, что реклама в интернете призвана помочь пользователю найти то, что он ищет, ежегодно в интернете появляется всё больше объявлений, которые создаются с одной целью — обмануть пользователей.

Кроме того, некоторые категории товаров и услуг рекламировать или вовсе запрещено, или допускается только с соблюдением определённых требований. Например, в рекламе БАД должно быть предупреждение о том, что средство не является лекарством.

Поэтому одна из важнейших задач Яндекса — точно и быстро выявлять различные категории рекламы и блокировать мошенников, чтобы пользователи могли безопасно совершать покупки, а компании — растить число довольных клиентов.

Алексей Гончаров, заместитель коммерческого директора по качеству, рассказывает, как мы внедряем и совершенствуем инструменты на базе машинного обучения для контроля рекламы.

ML-модели для защиты от мошенников

Поймать мошенника — на самом деле не так просто. Во-первых, их достаточно мало в общей массе рекламодателей. Так, на миллион обычных баннеров приходится примерно сотня мошеннических. Во-вторых, злоумышленники используют разнообразные методы обхода модерации. Например, фишинговые страницы, сайты-двойники, подмену контента, обфускацию (когда текст намеренно искажается для обхода алгоритмов) и так далее.

Поэтому в борьбе с мошенниками нам помогают ML-модели, которые учатся на больших объёмах данных, для того чтобы анализировать информацию и принимать решение без прямого участия человека. Их мы обучаем исходя из анализа поведения мошенников, с которым сталкиваемся.

Качество этих моделей зависит от нескольких важных факторов:

  • Полнота базы данных видов мошенничества. Мы используем YandexGPT для выявления подозрительных текстов, генерируем синтетические примеры для известных, но редких способов обхода модерации (например, обфускации, которую уже упоминали выше). В поиске новых видов мошенничества нам помогает ручная разметка и десятки различных эвристик (упрощённых стратегий угадывания решений).

  • Полнота признаков, по которым модель сможет отличить мошенника от добросовестного рекламодателя. Наши ML-модели учитывают более тысячи различных признаков, собранных на основе того, как рекламодатели размещают свои объявления в Яндекс Директе.

  • Частота обновлений моделей. Чтобы вовремя адаптироваться к новым угрозам, мы регулярно дообучаем модели на новых данных.

Сейчас мы применяем около десятка различных ML-моделей для обнаружения мошенников. У каждой из них — своя специализация и частота обучения. Например, одна обучена под выявление фишинга, другая — может охватить широкий спектр подозрительной рекламы в целом.

Как «Яндекс» защищает пользователей от мошеннической и запрещённой рекламы с помощью новых ML-моделей

Благодаря дообучению уже существующих моделей и обучению новых, скорость обнаружения мошенников увеличилась в восемь раз. В первом полугодии 2024 года мы заблокировали 197 тысяч аккаунтов недобросовестных рекламодателей, что на 33% больше в сравнении со вторым полугодием 2023 года.

ML-модели для классификации рекламы

Машинное обучение помогает нам не только в обнаружении мошенников, но и в классификации объявлений по темам. Например, для выявления рекламы алкоголя (она запрещена) или медицинских услуг (необходимо проверить наличие лицензии у рекламодателя и добавить предупреждение).

Для этого мы используем нейросеть на основе архитектуры DSSM (Deep Semantic Similarity Model переводится как «модель глубокого семантического сходства»). С её помощью можно быстро определять смысл текстов. Для этого собираем выборку объявлений по конкретной тематике, после ручной проверки модераторами обучаем на ней нейросеть распознавать контекст объявления и присваивать ему нужную категорию.

Этот инструмент мы используем для классификации как новых баннеров, так и уже размещённых. На данный момент нейросеть уже умеет определять категории ряда тематик. Например:

  • лекарства,

  • БАД,

  • табак,

  • алкоголь,

  • другие.

Благодаря внедрению нейросети нам удалось увеличить количество корректно классифицированных по обученным тематикам баннеров на 31%.

Новые инструменты на основе машинного обучения помогают нам защищать пользователей от опасной или запрещённой рекламы. Внести свой вклад в совершенствование этой технологии может каждый — достаточно пожаловаться на плохое объявление с помощью пульта управления рекламой.

33
19 комментариев

Почему вы не защищаете от своей рекламы?
Вводишь в яндексе «поиск Гугл» и периодически первой строкой поиск от яндекса.
У Гугла такого не видел.

11
Ответить

вы настолько засрали свой поиск, что на простой вопрос нет ни одного целевого ответа на первой странице.

например "очные медицинские учебные заведения москвы",
ни на первой, ни на второй странице нет прямой ссылки на медицинские учебные заведения.
Лишь на третей странице случайно упоминается "малоизвестная Сеченовка"

8
Ответить

Мошенников среди рекламодателей так мало, что у вас каждое второе рекламное объявление ведёт на фишинговый сайт)

5
Ответить

Уважаемый Яндекс может вы поработаете со своей рекламной сетью чтобы реклама хоть немного соответствовала контексту, чтоб не была вырвиглазной и т.д. позаботьтесь о своих клиентах

3
Ответить

зачем им это?

1
Ответить

Это от Ютуба что-ли, он нас защищает?

3
Ответить

это поэтому мне инфоцыгане показываются?

2
Ответить