2ГИС рассказал, как модерирует отзывы с нецензурными словами

2ГИС рассказал, как модерирует отзывы с нецензурными словами

В 2ГИС внедрили новый поиск матов и оскорблений на основе лингвистической модели в тексте отзыва и нашли более 30 тысяч опубликованных ранее в геосервисе отзывов с обсценной лексикой. Рассказываем, как геосервис теперь проверяет отзывы.

Как 2ГИС проверял отзывы раньше с помощью словаря

Раньше при модерации отзыва 2ГИС сравнивал текст отзыва со словарем ненормативной лексики. И если такая лексика была обнаружена, то отзыв не публиковался. Автору объясняли причину отказа и предлагали отредактировать текст.

2ГИС рассказал, как модерирует отзывы с нецензурными словами

Но такое решение было несовершенным, так как словарь ищет слова по точному совпадению. Так «собака» и «с0бака» будут для него двумя разными словами. Для того, чтобы такой инструмент работал эффективно, словарь нужно постоянно пополнять. И сколько слов в него не впиши, этого всегда будет недостаточно из-за находчивости авторов и изменчивости языка.

Как теперь проверяют отзывы в 2ГИС

Теперь отзывы проверяют в два этапа с использованием машинного обучения.

— Вместо использования одного словаря с ограниченным количеством слов мы обучили ML-модель на основе автоматической разметки и учли ранее принятые решения отдела модерации. ML-модель — это второй этап проверки отзыва на маты, которая позволяет детальнее оценивать отзыв и реагировать там, где словарь бессилен, — рассказывают в компании.

В 2ГИС поясняют, что внедрение ML-модели — это лишь первый шаг борьбы с токсичными отзывами. В дальнейшем будут увеличивать вариативность слов, определять модификацию слов с использованием эмодзи, знаков препинания или латинских символов, учитывать контекст всего отзыва, даже если там нет явной нецензурной лексики.

Какие результаты дало внедрение ML-модели в проверку отзывов

  • увеличили вариативность слов в словаре в два раза;
  • нашли более 30 тысяч опубликованных отзывов с обсценной лексикой, о которых ранее не знали;
  • стали учитывать однокоренные слова, поэтому теперь не нужно фиксировать в словаре сотни вариаций одного слова;
  • стали реагировать на слова, которые разделены знаком препинания, например, «точкой».

За прошедшие две недели модель предотвратила публикацию больше 11 тысяч отзывов с обсценной лексикой, что составляет одну рабочую неделю команды модерации 2ГИС. Благодаря доработке, в геосервисе меньше токсичного пользовательского контента, а компании станут получать более экологичную обратную связь в отзывах.

Источник: 2ГИС.

Читайте также:

11
Начать дискуссию