Парадоксы оценки уникальности или что не так с Text.ru

Люди привыкли использовать сервисы для оценки уникальности текста. Это стало отраслевыми стандартом для любого, кто работает с контентом, пишет его, размещает, покупает или продаёт. Мы привыкли доверять таким сервисам, сегодня сложно представить себе ТЗ для копирайтера или автора статьи без лимита уникальности, нередко с указанием конкретного сервиса, которому доверяет создатель ТЗ. Мне тоже приходится много работать с текстами, и я также, как большинство, привык доверять сервисам проверки текстов на уникальность. Однако, недавно меня начали "терзать смутные сомнения"...

Пару тёплых слов о Text.ru

Много лет Text.ru удерживают позицию одного из лидеров сегмента проверки уникальности в рунете. Для тысяч людей показатели уникальности от этого сервиса последняя инстанция при проверке контента на плагиат и определения того насколько текст понравится поисковым роботам. Я много лет использовал Text.ru и, не смотря на то, что его работу нельзя назвать безупречной, он выполнял заявленные функции и в целом меня устраивал. Недавно со мной произошел случай, который навёл на размышления о точности алгоритмов и качестве проверки уникальности, причем не только у Text.ru, но и у всех прочих сервисов, проверяющих тексты на уникальность.

Случай

Представьте, что вы пишите текст насыщенный специфической терминологией. При этом SEO-специалист, который готовит требования к тексту, настаивает на 100% уникальности (не логично в 2021-м, но случается). Наконец, вы завершаете опус, и проверяете его на уникальность при помощи сервиса, который показывает вам 100%. Вы с чистой совестью фиксируете результат, применяя соответствующую функцию.

Внезапно возникает необходимость дополнить текст. И тут начинаются странности. При проверке дополненного текста его уникальность снижается. И вроде бы это логично, в том случае если алгоритм оценивает новую часть текста как неуникальную. Или при совмещении этой части с соседней возникает неуникальная последовательность символов. Но как быть если помимо нового фрагмента, система выделяет часть текста, которая структурно удалена от добавленного текста, а выделенные участки ранее были определены как уникальные?
В моём случае всё ещё интереснее, так как если вырезать якобы неуникальный фрагмент из текста и проверить его отдельно, то Text.ru определяет его как уникальный.
Чтобы не быть голословным, предоставляю ссылки.
Исходный текст(100%): https://text.ru/antiplagiat/6131d5af03eb2
Текст с интегрированным фрагментом (77%): https://text.ru/antiplagiat/61327beeac602
Фрагмент отдельно (100%): https://text.ru/antiplagiat/61327b9af0a32
Получается интересная ситуация, в которой 2 на 100% уникальных по отдельности фрагмента, вместе становятся неуникальными на целых 23%. Вероятно в сложном алгоритме расчёта уникальности есть некая особенность, которая при анализе связывает части текста, структурно находящиеся в разных его частях. Зачем так сделано, мне не совсем понятно.

Ещё немного претензий к Text.ru

Это не единственная парадоксальная история связанная с результатами проверок на Text.ru. Если поэкспериментировать и проверить один и тот же неуникальный текст несколько раз, мы удивительным образом обнаружим несколько различных результатов. Это можно объяснить за счет динамических изменений в поисковой выдаче, с которой система сравнивает текст, "но это неточно".

Между тем, сервис вполне может просто рассказать о том почему такие изменения существуют. Всё же у меня закрадываются подозрения, что разные моменты времени алгоритм работает неодинаково и почему всё так устроено мне не совсем понятно.
Отдельного упоминания заслуживает оценка заспамленности. Для определения этого показателя алгоритм выявляет дублирующиеся слова и фразы, выделяет их и определяет эту самую заспамленность выдавая результат в процентах. По логике, чем меньше дублированных фраз(повторяющихся слов), по отношению к равному количеству символов будет в тексте, ниже должна быть заспамленность. На практике это не всегда так. Планомерно сокращая количество дублей в тексте от проверки к проверке, возникает результат, когда у вас в тексте всего два повторяющихся слова, но сервис упорно выставляет заспамленность в районе 35%.

В качестве заключения

Все эти парадоксы мне представляются достаточно странными и наводят на печальные мысли о том, что сервисы проверки контента работают не так хорошо, как мы привыкли думать. А также, что SEO-специалистам, возможно, следует меньше доверять подобным системам. Учитывая, что для этого сервиса не очень много альтернатив, прошу читателей поделиться собственным опытом использования Text.ru и других систем определения уникальности.
Мне не хотелось бы, чтобы этот пост воспринимался как попытка утопить Text.ru в пользовательском хейте. Я просто задаю вопросы, которые, думаю, появляются у всех, кто столкнулся с подобными парадоксальными результатами. Буду признателен за описания вашего опыта работы и странных результатах в системах проверки контента.

77
23 комментария

Разве это новость? Ушлые копирайтеры из стопроцентной копипасты могут сделать уникальный текст по пузомеркам текст.ру (и каких-нибудь адвего), поменяв чуть ли не десяток символов/слов.

Мне, как заказчику, подобные сервисы практически не нужны. Ну, разве что мельком глянуть, чтоб там не было уж откровенной копипасты.

Впрочем, поисковики хавают и копипасту, никакого в этом откровения нет.

3
Ответить

Поисковики хавают копипасту при определённых условиях. Мой пост о другом. В нашем случае есть 2 уникальных текста, которые при совмещении становятся неуникальными, при этом принцип по которым их уникальность оценивается не прозрачен. Поменяв 10 символов или 10 слов, если объём текста не 10 слов, нельзя сделать текст уникальным по меркам текст.ру и любой другой системы , если настаиваете на обратном - докажите. Ушлым копирайтерам нужно уметь ставить задачу и формировать требования в ТЗ, ну и нанимать нужно не авторов из серии 5 копеек за пучек, и будет всё хорошо.

Ответить

Автор скрыл текст из публичного просмотра, но это пофиг, текст ру показывает ресурсы на которых есть совпадения, что он в вашем случае показывает?

1
Ответить

https://text.ru/antiplagiat/61327beeac602
Сорри, он просто был скрыт по умолчанию. 

Ответить

А теперь, для чистоты эксперимента, возьмите ваш 100% текст и отправьте его на проверку еще раз. В инкогнито и не заходя в аккаунт. 

В целом нет ничего удивительного, если представлять как работают подобного рода алгоритмы: текст бьётся на небольшие последовательности слов (шингл) → каждая последовательность отправляется в поиск, таким образом формируется список документов для сравнения → каждая последовательность ищется в этих документах

Расширив исходный текст вы увеличиваете кол-во и разнообразие шинглов → увеличивается вероятность, что набор документов для сравнения будет больше/разнообразнее → больше вероятность что будут совпадения с вашим текстом.

1
Ответить

Сделать это так как вы говорите нельзя, так как на сервисе ограничена  бесплатная проверка, и проверять что-то незалогинившись в приличных объёмах нельзя. Между тем, я склонен считать, что вы правы и дело в шинглах.
Возможно вы объясните мне следующий парадокс с заспамленностью. У нас есть 2 новости, которые отличаются исключительно порядком слов и больше ничем. Отличие в заспамленности состаляет 3 %

Ответить

Писала тексты для сайта о разработке ПО, глубоко вникала в темы (поисковый спрос, структура страниц лидеров, опыт заказчика) - с первого раза каждый текст был 100% уникальным (проверяла в сервисе из публикации). Каждый текст правила неоднократно (снижала спамность, изменяла формулировки и др.) - никаких изменений в уникальности.
И это не единственный пример, поэтому проблема непонятна. Замечу, что я не профессиональный копирайтер.

Ответить