Специфический способ наказать за копирование контента: бэклинки и бан, но это не точно
Если ваш контент постоянно заимствуется конкурентами, то вы можете наказать воришек. О нетривиальном способе будет полезно узнать тем, кто при работе с проектом задействует копирайтеров и контент-менеджеров, далёких от знаний html и css.
Большинству SEO-специалистов известны стандартные способы защиты авторского контента:
будь первым проиндексированным (первоисточником),
купи анкоров с пассажами из твоего текста,
напиши в Google по DMCA, в хостинг-компанию и т. д.,
приложи подорожник (зачеркнуто) знак © и укажи правила использования контента,
- есть вагон свободного времени - отправь заказное письмо со свежей статьей себе и пиши досудебку.
Вызывают улыбку JS-уловки, при которых нельзя скопировать контент или, когда в конец скопированного текста добавляется: … подробнее читайте на нашем сайте ...
Но наша история более изощренная
Всё началось с того, что один из продвигаемых нами сайтов просел в Yandex. Просел в строго определенных кластерах, т.е. какие-то группы ключевых запросов продолжают расти дальше, а какие-то резко упали в один день. На графике ниже можно увидеть, как проседание отразилось на посещаемости сайта. Google среагировал, но не так ярко, можно списать на колебания спроса:
Пошли искать причину и выяснили, что на сайте много невидимых ссылок, которые ведут на сайт конкурента. Предположение о взломе не подтвердилось, и тогда мы стали копать дальше. Обнаружили, что при копировании почти любой информации на сайте конкурента к скопированному элементу добавляется невидимый блок ссылок, вот такой:
Контент-менеджеры клиента, перенося информацию с сайта конкурента, не подозревали, что в нагрузку получали такие «подарки».
Копировали информацию двух видов:
технические характеристики товаров,
- описание продуктов, которое полностью переписывалось до нужного уровня уникальности.
При редактировании материала использовался редактор в WYSIWIG-режиме, когда текст отображается «как в Word-е», без html-кода и, соответственно, скрытых ссылок. Что позволило получить конкуренту с пару десятков беклинков с нашего сайта.
Негативное влияние для донора при размещении невидимых ссылок сильное (и в основном под Yandex), а вот какой толк от невидимых ссылок для акцептора? Непонятно. Подобные ссылки воспринимаются поисковиками как спам. Тем более, что в код поместили всевозможные «спамные» css-конструкции: невидимая ссылка в 1 пиксель, находящаяся далеко за пределами экрана.
Мы бы поняли конкурента, если бы невидимые ссылки вели на какой-нибудь сомнительный, чисто «мужской» сайт, чтобы хорошенько так испортить карму текстовых воришек. Но нет.
Стоит отдать должное, в момент публикации этой статьи скрипт конкурента уже не добавлял невидимые ссылки, а лишь подставлял тривиальное и видимое: «… подробнее читайте на нашем сайте...»
Существует теория, что то, что не дано маленьким и молодым можно большим и старым (в SEO, конечно же ^_^). Поэтому мы запустили эксперимент по получению невидимых ссылок на сайт-новичок. Поделимся результатами в следующей статье.
В любом случае, мы разобрали скрипт на составляющие – возможно, кого-то из специалистов логика работы скрипта наведёт на мысли – зачем так делается? И они поделятся ими в комментариях ;)
Чисто академический интерес :)
Сам скрипт можно скачать с нашего Telegram-канала (скрипт небольшой и опубликован прямо в посте).
Есть две версии скрипта:
в формате ES6 модуля;
- в формате скрипта, подключаемого на html-странице.
Логика работы скрипта заключается в следующем:
В скопированном фрагменте (если быть точным - в выделенном и скопированном фрагменте) ищется жирный текст (содержание тега <strong>). Если он есть, то он используется в качестве анкора невидимой ссылки.
- Если жирного текста нет, то берётся значение тега <h1>.
- Если и его нет, то берётся значение доменного имени (а-ля естественная ссылка).
- Невидимая ссылка генерируется с атрибутами rel="nofollow" target="_blank". Атрибут href ведёт на текущую страницу, с которой был скопирован текст.
- Если в скопированном тексте несколько слов в теге <strong>, то в качестве анкора будет браться первое слово.
Видно основательный SEO-подход в алгоритмах скрипта. Но вот вопрос – зачем такие ссылки? Будем признательны за ваши идеи в комментариях.
Она может и невидимая и акцептору ничего не принесёт, зато поисковику видимо принесло и ваш сайт попустил.
Чем плохо «подробнее на сайте и тд»? Бывает парсят и вообще не смотрят ни на что, а тут ссылка появляется на источник.
Все методы защиты от воровства, все это фигня, только в суд, а этим никто не хочет заниматься.
«Кто первый индексируется» - в яндексе может, а в гугле где-то писали, что более авторитетный домен и будет считаться первоисточником.
Да, защититься от воровства контента никак не выходит, кроме досудебки, а если не получилось, то и судебного разбирательства. Но вот такой "скрытый" сюрприз встретили в первые.
В Google, кстати, раньше жалобы на DMCA помогали, давно не использовали, не знаем как сейчас.
Там очень неудобный интерфейс, нужно заполнять гору полей для каждой страницы. А если у тебя сотни страниц стырили, то будешь вечность заполнять.
а что если сделать текст не выделяемым, либо при выделении и копировании копировалось не то. А в дивах в тексте засунуть невидимые фразы, чтобы при попытку взять исходное содержимое приходилось крайне долго и вручную чистить текст?
Как я понимаю это технически можно реализовать только через JS-скрипты, а при их выключении вся магия пропадает.
А невидимый текст это как раз верстка без js, как у вас в тексте. Просто там более аккуратно сделали, а можно напортачить для копирования очень невразумительно.
Я тут недавно вообще нашел сайт который не мог скопировать. Там контент подгружался динамически и малыми порциями, а старый сразу удаялется. В итоге видеть мог небольшую часть разом. Читать нормально, копировать - полнейший ад.
Ваша находка сайта - это что-то на мазахистском точно 😬
А то, что касается невидимого контента, то поисковые системы рендерят сайты обычно без JS (Yandex так точно), поэтому если у вас будет что-то кроме нужного текста на странице - это будет мешать продвижению. Поэтому мы не защищаем контент на сайтах с помощью JS и других уловок, кроме юридических условностей, чтобы это не вставляло палки в колеса SEO.
думал они уже давно решили эти проблемы(я с фронтендом и SEO не работал с 2013 года)
вот даже пишут в 2019ом что
https://vc.ru/seo/69857-seo-test-indeksaciya-javascript-saytov
более менее работает
На нашей практике это всегда танцы с бубном (Яндексом), поэтому мы подстраховываемся и отдаем поисковику уже отрендеренный контент. Google более сообразительный в этом плане, скорее всего мощностей хватает на JS-рендеринг.
для рендера js надо подтягивать что-то вроде selenium, а оно конечно требовательнее по железу. С другой стороны у гуугла охват по больше. Вероятно яндекс умышлено такое не делает чтобы SEO не распускали руки.
При их выключении 70% сайтов просто не загрузится)
Знакомых фронтендеров спросите - вам скорее всего несколько вариантов такой "интеграции" предложат)
Для SEO нужно чтоб грузились. Поэтому на своих проектах пытаемся сайт с JS сделать похожим на его же версию без JS. Server-Side Rendering нам помогает решать эти задачи.
У меня фото отельер спиздил и на букиге выложил себе.
Я ему писал, букингу писал - 0 (is null) эрекции.
Заполнил ДСМА гуглу - после ответа сразу фотки исчезли!
Жажда наживы букинга не позволяет исключать страницы из поиска!!!
Полагаю, что бук написал этому сраному бизнесмену-отельеру: убирай ворованое, а то забаню тебя нахер!
Сейчас я жду ответ - отправил жалобу DMCA на vc.ru
А что vc.ru "позаимствовал" у вас?
Не сам конечно, а юзер тут зареганный.