Кейс: как удалить украденный контент

Рассказываем о том, как неоригинальный контент может повредить сайту и как бороться с ворами контента, которые снижают уникальность ваших статей простым копипастом. Даем подробные инструкции по защите авторского текста с образцами документов.

<p>Рис.1. Как удалить украденный контент.</p>

Рис.1. Как удалить украденный контент.

Одна из задач поисковых систем — оценивать уникальность и полезность информации на сайтах. Поэтому их алгоритмы постоянно совершенствуются с тем, чтобы лучше и быстрее обнаруживать дублированный и малополезный контент. Если на сайте размещены некачественные, неуникальные или спам-материалы, то поисковик наложит фильтр на такой ресурс, а это повлияет на посещаемость сайта.

Какие фильтры используют поисковики, чтобы ограничивать сайты с дублированным и некачественным контентом

Фильтры и санкции Google, связанные с неуникальным контентом

Рис.2. Фильтры и санкции Google за использование неуникального контента.<br />
Рис.2. Фильтры и санкции Google за использование неуникального контента.

1. Фильтр по дубликатам контента (Duplicate Content Filter): Google стремится не индексировать или не отображать дубликаты в результатах поиска. Он индексирует веб-страницы, чтобы определить качество и уникальность их содержимого. Если обнаруживает, что одна страница дублирует другую, то может удалить дублирующийся контент из индекса. Для этого поисковик использует комбинацию алгоритмов. Они учитывают не только сходство текста, но и другие факторы: структуру страницы, метаданные и ссылки. Таким образом, присвоение статуса «дубликат» зависит и от даты индексирования страницы.

2. Комплексный алгоритм ранжирования (Ranking Algorithm): Google использует сложный алгоритм ранжирования, который учитывает уникальность контента, его качество, авторитетность и релевантность. В него входит фильтр Google Panda, который оценивает качество контента и не любит украденные тексты. Неоригинальный контент может отрицательно повлиять на позиции в поисковой выдаче.

3. Helpful content update: это обновление Google, которое будет поощрять сайты с контентом, помогающим пользователям решить свои проблемы, а также наказывать некачественные сайты, к которым он в том числе относит сайты с украденным контентом. Пока обновление работает для англоязычного сегмента, но скоро его распространят и на русскоязычные сайты.

4. Удаление страниц из индекса: Google может удалить страницы с неуникальным контентом из своего индекса, чтобы обеспечить лучший пользовательский опыт и предотвратить спам, о чем сообщал в своих правилах.

Чтобы выйти из-под санкций Google, придется полностью переработать контент, сделав его уникальным и полезным для пользователей. И запастись временем: снятие фильтров Google достаточно длительный процесс и может затянуться до следующего обновления алгоритма.

Фильтры и санкции Яндекс за использование неуникального контента

Рис.3. Фильтры и санкции Яндекс, связанные с неуникальным контентом.<br />
Рис.3. Фильтры и санкции Яндекс, связанные с неуникальным контентом.

В поисковой системе Яндекс при обнаружении неуникального контента срабатывает фильтр, получивший неофициальное название «Ты последний».

Его последствия: страница будет помещена в самый конец поисковой выдачи, резко сократится трафик с Яндекса при сохранении числа страниц в индексе и нормальном процессе индексации новых страниц.

Для выхода из ситуации нужно также полностью переработать контент на странице, которая попала под фильтр «Ты последний», многократно повысив его уникальность и ценность. Затем написать в службу поддержки Яндекса и отправить исправленные страницы на переобход в Яндекс.Вебмастере. Как видим, снятие фильтра требует достаточно больших затрат. И не только временных.

Август 2023 года отметился новым штормом в поисковой выдаче Яндекса, причиной которого стало обновление алгоритмов поисковой системы по определению неоригинального контента на сайтах.

В своем блоге представители Яндекса отметили:

«Теперь алгоритмы лучше определяют заимствованный и неоригинальный контент на сайтах. Если сайт не предлагает оригинального контента, содержит преимущественно скопированную или переписанную информацию с других ресурсов, а также контент с низкокачественным автоматическим переводом текстов на другой язык, — он не соответствует принципам качественного сайта».

Блог Яндекса для вебмастеров.

При этом практика и многочисленные обсуждения на тематических форумах и сайтах показывают, что после этого обновления многие авторитетные онлайн-ресурсы с оригинальными и полезными статьями столкнулись с пессимизацией, причиной которой вполне может быть малополезный, по мнению поисковой системы, контент.

Возникает очевидный вопрос, как и почему такая ситуация могла произойти, если и собственники сайтов, и SEO-специалисты уверяют, что размещают уникальные статьи и материалы на своих ресурсах?

Давайте проверим, а уникальный ли контент?

Мы сами в Ant-Team.ru столкнулись со снижением трафика из поисковых систем в работе над одним из проектов. И потому решили провести текстовый анализ материалов, которые были размещены на ресурсе нашего клиента.

<p>Рис.4. Анализ трафика из поисковых систем.</p>

Рис.4. Анализ трафика из поисковых систем.

Для проведения анализа мы использовали функционал https://text.ru/antiplagiat, который оценивает уникальность текста.

Рис.5. Анализ уникальности текстов на text.ru.<br />
Рис.5. Анализ уникальности текстов на text.ru.

Результаты анализа нас впечатлили. Так, например, мы проверили на оригинальность 15 страниц из одного раздела сайта и выяснили, что только две из них содержат текст с уникальностью выше 90 %. Остальные не дотягивали и до 70 %. Пять статей имели уникальность менее 5 %.

Рис.6. Результаты текстового анализа.
Рис.6. Результаты текстового анализа.

При этом ниша заказчика является узкой, а тексты для сайта готовили эксперты компании-клиента вместе с копирайтерами на основе технических заданий от наших SEO-специалистов. То есть мы были абсолютно уверены, что на сайте содержатся оригинальные тексты, которые в глазах поисковиков (и пользователей) будут считаться полезным контентом.

Как мы обнаружили кражу контента

Как выяснилось, уникальность текста была утеряна в связи с массовой кражей контента с ресурса клиента.

Всего мы проверили 149 страниц из разделов «Услуги» и «Статьи». На 29-ти из них выявили кражу контента.

Например:

Рис.7. Результаты проверки в сервисе text.ru. <br />
Рис.7. Результаты проверки в сервисе text.ru.

Как можно увидеть на скриншоте, в некоторых случаях текст одной статьи воровали сразу несколько доменов.

Всего в краже контента мы уличили 37 сайтов, 3 из которых можно назвать наиболее злостными: один из них полностью скопировал 8 статей, второй 5, а третий 4.

<p>Рис.8. Соотношение доменов и количества украденного контента.</p>

Рис.8. Соотношение доменов и количества украденного контента.

Среди воришек контента были не только информационные сайты, которые зарабатывают на размещении рекламы, но и прямые конкуренты.

При этом информация о принципах работы обновленного алгоритма поиска Яндекса и способах выявления малополезного контента еще не известна. Так что остается только догадываться, какой сайт поисковая система признает автором контента, а какой — злостным плагиатчиком.

В связи с этим перед нами встал вопрос защиты интеллектуальных прав и борьбы с воровством.

Конечно, можно переписать все тексты с низкой уникальностью и разместить на своем сайте новый оригинальный контент. Но это повлечет временные и трудовые затраты специалистов — экспертов, копирайтеров, SEO-специалистов. И никто не даст гарантий, что на следующий день после размещения ушлые воры вновь не скопируют ваши тексты и мгновенно не опубликуют их у себя. Прощай оригинальность.

Поэтому мы решили пойти по пути защиты прав клиентов на авторство контента.

Чем защищен авторский контент

Контент (статьи, видео и фотографии), размещаемый на интернет-сайтах, является объектом авторского права.

Интеллектуальную собственность и авторские права защищает Гражданский кодекс РФ (далее - ГК РФ). В соответствии с ГК РФ гражданин или юридическое лицо, обладающие исключительным правом на результат интеллектуальной деятельности (правообладатель), вправе использовать такой результат или такое средство по своему усмотрению любым не противоречащим закону способом (статья 1229).

Это в том числе означает, что автор контента может по своему желанию разрешать или запрещать другим лицам использование результата интеллектуальной деятельности (в нашем случае — статьи).

И очень важный момент: отсутствие запрета не считается согласием (разрешением). Другие лица не могут использовать соответствующий результат интеллектуальной деятельности без согласия правообладателя, за исключением случаев, предусмотренных ГК РФ.

Почему мы акцентировали на этом внимание? Многие воришки контента дословно скопировали тексты статей нашего клиента, но разместили на своем сайте ссылку на страницу сайта клиента, с которой был украден контент. Судя по всему, таким образом они хотели избежать обвинений в нарушении авторских прав. Как видим, они ошибались.

Размещение ссылок даже усугубило ситуацию: мы получили внешние ссылки на ресурс клиента с очень сомнительных сайтов, большинство из которых имеют Domain Rating по Ahrefs меньше 1.

<p>Рис.9. Ссылочный профиль и трафик сайтов, укравших контент. </p>

Рис.9. Ссылочный профиль и трафик сайтов, укравших контент.

Для подтверждения своих прав обычно устанавливают стандартное уведомление об авторских правах. Чаще всего информацию добавляют в подвал сайта в виде текста или символа ©, с указанием названия сайта (имени владельца) и года. Например: "© Все права защищены, имя владельца сайта, 2023".

Это самый простой способ подчеркнуть, что весь контент на сайте является объектом авторских прав и его использование без разрешения запрещено.

На сайте нашего клиента был размещен такой знак охраны авторских прав.

Далее пошагово описываем действия, необходимые для удаления украденного контента с чужих доменов.

Шаг 1. Составляем список украденного

По итогам анализа мы составили список украденного контента, в который включили:

  • url страницы сайта клиента, с которой был взят контент;
  • скриншот страницы сайта клиента со статьей, где указана дата размещения контента, который впоследствии был украден;
  • скриншот с данными проверки текста на уникальность с помощью сервиса https://text.ru/antiplagiat;
  • скриншот страницы сайта-плагиатчика, содержащей заимствованную у клиента статью;
  • данные из Ahrefs о рейтинге и ссылочной массе сайта-вора контента.
<p>Рис.10. Список украденного контента. </p>

Рис.10. Список украденного контента.

Шаг 2. Готовим официальную претензию

Мы направили претензию в адрес всех администраторов сайтов-плагиатчиков. Пример документа вы можете скачать по ссылке и использовать в работе.

<p>Рис.11. Пример претензии в адрес администраторов сайтов-плагиатчиков.</p>

Рис.11. Пример претензии в адрес администраторов сайтов-плагиатчиков.

Отправить претензию можно по электронной почте, адрес которой обычно находится в разделе Контакты, или воспользоваться формой обратной связи.

В нашем случае с обоими методами возникла проблема: большинство сайтов не указывали email, либо он был недействующим, а форма обратной связи оказалась нерабочей.

Окей, с этим тоже можно справиться. Через сервис https://whois.ru мы установили сервер, на котором зарегистрирован домен, и направили наше обращение через форму связи с администратором домена.

<p>Рис.12. Поиск сервера, на котором зарегистрирован домен.</p>

Рис.12. Поиск сервера, на котором зарегистрирован домен.

В результате на момент подготовки статьи 27 доменов удалили украденный контент после получения претензии.

<p>Рис.13. Ответ администраторов доменов. </p>

Рис.13. Ответ администраторов доменов.

10 доменов не выполнили наши требования. Для таких случаев мы подготовили письма в адрес администраторов сайтов-хостингов, которые находятся на рассмотрении у хостинг-провайдера.

Какие материалы можно приложить к претензии

Чтобы подтвердить авторство, можно использовать техническое задание и сам документ с контентом. Однако направлять их администратору сайта-плагиатчика не стоит, поскольку он может ими воспользоваться не с благими целями.

Оптимальный вариант — приложить к претензии для подтверждения авторства:

  • Скрины страниц сайтов, если и на вашем сайте, и на сайте-плагиатчике указана дата размещения статьи, и статья на вашем ресурсе опубликована раньше.

Например:

<p>Рис.14. Пример скриншота страницы с датой размещения текста. </p>

Рис.14. Пример скриншота страницы с датой размещения текста.

Рис.15. Пример скриншота страницы с датой размещения текста.
Рис.15. Пример скриншота страницы с датой размещения текста.
  • Скрины из веб-архива, например, https://web.archive.org/ или https://web-arhive.ru. Они покажут, что на дату, в которую вы разместили материалы на своем ресурсе, страницы сайта с украденным у вас контентом не существовало вовсе или она содержала другой контент.
  • Скрины из сервиса проверки whois. Они подтвердят, что домен, на котором разместили украденный контент, был зарегистрирован позднее, чем размещен ваш контент.

Как вы уже поняли, для быстрого и эффективного решения вопроса об авторстве контента важно размещать дату публикации статьи на странице. Это значительно упростит разрешение спорных моментов в будущем.

Что делать, если администратор сайта-плагиатчика игнорирует претензию или не выполняет требования

В таком случае необходимо найти хостинг-провайдера, обслуживающего такой сайт. Сделать это можно с помощью все тех же сервисов whois.

<p>Рис.16. Ищем хостинг-провайдера, обслуживающего сайт.</p>

Рис.16. Ищем хостинг-провайдера, обслуживающего сайт.

Вводите в поисковую строку адрес сайта — в строке с данными сервера появится указание хостинга. Затем ищете официальный сайт этого хостинга и пишете обращение через форму обратной связи или на почту. В отличие от сайтов-плагиатчиков, на сайтах хостингов указанные варианты связи обычно работают.

К обращению нужно приложить материалы, подтверждающие авторство. Те же, которые вы прикладывали к претензии.

Дополнительно хостинг-провайдер может запросить оформленную в установленном порядке доверенность (если заявление подается представителем правообладателя), договор авторского заказа на материалы, размещенные на вашем сайте, и другие документы, подтверждающие авторство материалов.

Иногда сервис Who is в строке «данные сервера» может предоставить данные компании cloudflare.com, которая не является хостинг-провайдером, а предоставляет услуги CDN и серверы DNS. Обычно такая ситуация возникает, когда хостинг-провайдер находится за рубежом.

<p>Рис.17. Сервис Who is предоставил данные компании cloudflare.com, а не хостинг-провайдера.</p>

Рис.17. Сервис Who is предоставил данные компании cloudflare.com, а не хостинг-провайдера.

Но даже в этом случае адрес хостинг-провайдера узнать можно. Для этого на сайте cloudflare.com заходим в раздел «Trust and safety».

<p>Рис.18. Ищем адрес хостинг-провайдера на сайте cloudflare.com.</p>

Рис.18. Ищем адрес хостинг-провайдера на сайте cloudflare.com.

Затем нажимаем кнопку «Click here to submit an abuse report».

<p>Рис.19. Ищем адрес хостинг-провайдера на сайте cloudflare.com.</p>

Рис.19. Ищем адрес хостинг-провайдера на сайте cloudflare.com.

Из предложенного списка тематик обращения выбираем «Copyright Infringement and DMCA Violations» и заполняем форму на английском языке (мы перевели через Google-переводчик).

<p>Рис.20. Заполняем форму на сайте cloudflare.com.</p>

Рис.20. Заполняем форму на сайте cloudflare.com.

В ответ на такой запрос Cloudflare.com пришлет контакты хостинг-провайдера. Можно писать ему напрямую.

Зарубежные хостинг-провайдеры удаляют украденный контент гораздо быстрее, чем российские, и не требуют много документов.

<p>Рис.21. Ответ зарубежного хостинг-провайдера. </p>

Рис.21. Ответ зарубежного хостинг-провайдера.

В нашем случае анализ показал, что большинство доменов сайтов-плагиатчиков зарегистрированы на одном хостинге приблизительно в одно и то же время. Это может означать, что противоправной деятельностью занимается один человек, информацию о котором сервер скрыл.

Как еще можно защитить контент?

Для защиты контента от копирования на веб-страницах в некоторых случаях используют:

  • CSS-свойство user-select с заданным значением none, благодаря чему все элементы на странице не будут допускать выделение текста и, следовательно, его копирование:
css .some-element { user-select: none; }
  • JavaScript для блокировки правой кнопки мыши:
<script type="text/javascript"> document.oncontextmenu = function() { return false; } </script>

Но в большинстве случаев контент воруют посредством парсинга, а не копируют вручную. Поэтому такой способ не является эффективным и не даст 100 % результата. Опытные пользователи всегда смогут обойти защиту.

Вывод

Кража контента — это проблема, с которой может столкнуться каждый владелец интернет-ресурса и/или SEO-специалист. Однако используя специальные инструменты и способы защиты, с этим явлением можно успешно бороться и защищать труды своей интеллектуальной деятельности.

Практика показывает, что проблема украденного контента в большинстве случаев решается после обращения к администраторам сайтов-плагиатчиков и/или сайтов-хостингов, на которых они зарегистрированы.

Если же решить проблему таким способом не получилось, вы можете обратиться в службу поддержки поисковиков и пожаловаться на копирование информации с сайта:

P.S. Мы не можем утверждать, что именно результаты нашей работы по удалению украденного контента повлияли на рост трафика из поисковых систем на сайт клиента. Но после просадки в августе он заметно подрос в сентябре.

<p>Рис.22. Анализ трафика из поисковых систем на сайте клиента после удаления украденного контента. </p>

Рис.22. Анализ трафика из поисковых систем на сайте клиента после удаления украденного контента.

Автор: Анастасия Пономарева (seo-специалист Ant-Team.ru).

Подписывайтесь на наш телеграм-канал t.me/seoantteam, чтобы первыми узнавать о выходе новых материалов. И смотрите наши бесплатные обучающие видео на YouTube, VK и Rutube.

88
17 комментариев

Мда, работа ради работы.
Сами себе придумали проблему, нашли для неё обоснование - мол вот, есть алгоритмы и патенты, для борьбы с дублицированным контентом, внушили себе и заказчику, что всё это не зазря и в путь.
Ну честно, выглядит смешно, будто нужно было чем-то набить отчеты, вот вы и придумали борьбы с ветряными мельницами. Особенно позабавило то, что в обосновании ради "научности" и массовости втиснуты причины, которые вообще никак не связаны с дублицированным контентом

4

я поржал. Когда пришла претензия от Антов. "УУУууу вы украли наш топовый контент :). "

1

Личный опыт:
1) Копипаст с моего инфосайта в составе сборной портянки на 50-100к символов. Слал DMCA-абузы в Гугл. Где-то 30% абуз одобрили, остальные забраковали - мол, на странице на которую ты жалуешься не тот контент, иди лесом. Очень триггерила такая реакция с учетом того, что тот же Гугл без всяких разбирательств может удалить по DMCA страницу, например, с html-картой сайта (т.е. по дефолту не способной содержать объекты чужих авторских прав), на которую пожаловались какие-нибудь клоуны из «юридической компании по борьбе с пиратством и защите авторских прав», которые парсят выдачу, шлют абузы на автомате и даже не проверяют на какие урлы они ссылаются в своих абузах и какой там контент. И потом фиг это решение опротестуешь - все твои аргументы "да вы сами посмотрите, ну где там вообще чужой контент?" будут просто в мягкой форме сливать. А у меня обоснованные жалобы и по большей их части все равно приходил отказ.
2) Коммерческий сайт, с которого многие конкуренты пытаются воровать структуру и сделанные специально под клиента картинки и анимации. Отправляли воришкам претензии по электронной почте. На претензии среагировала только одна контора - извинились, передали обращение подрядчикам из веб-студии, занимавшейся созданием и поддержкой их сайта. Те удалили часть спорного контента, а потом совершили гениальное - ограничили доступ с моего IP (видимо, выцепили из письма) к сайту своей веб-студии. Смысл этого поступка я до сих пор не могу понять, ну да земля им пухом. Остальные конкуренты мои претензии просто игнорировали. Клиенту же было лень рассылать им официальные претензии от лица своей компании, да и подтверждением своих прав на созданный под него контент он в свое время не озаботился.
3) Тот же клиент, просьба защитить сайт от воровства не только графического контента, но и текстов (описания товаров). Естественно, это невозможно, потому что если контент доступен поисковому роботу - значит, его можно и спарсить. Но чтобы как-то успокоить человека - написали и подключили JS-скрипт, который отслеживает выделение текста на странице и в этот момент подменяет в тексте все русскоязычные символы на схоже выглядящие из английской раскладки. Эффективность этого решения доподлинно неизвестна, но тут мы переиграли сами себя. Ибо оказалось так, что сколько ни рассказывай собственным контентщикам про этот скрипт и про то, что нельзя в ходе каких-то работ копипастить тексты с публичной части сайта - на эти предупреждения нет-нет, да забивается. И со временем у нас появились страницы и сквозные блоки с кашей из подменных символов. В итоге пришлось писать еще и скрипты для поиска поврежденных кусков текста.

4

Статья о том как побольше снять с клиента бабла, и обосновать. Клиент ещё не понял как его развели!))) "Кнопка бабло"(с)

2

Последнеее - это мем какой-то? Есть ориг?

1. Сразу возник вопрос к аналитике - как можно сравнивать посещаемость недели с 3 дня?! Выводы некорректные. Попробуйте поставить корректные даты и проанализировать - может все хорошо было, и зря была проделана работа?
2. Как доказать, что тексты написаны вами? Может вы не также все скопировали, но немного раньше других? Часть провайдеров просит нотариального подтверждения, что тексты ваши. Скрины с сайта - да там дату можно поставить хоть от 1900 года - не самый сильный аргумент.

1

1. да реально. Трафик проверили с 8 по 30 августа. и Решили что он падает?