Парадоксы оценки уникальности или что не так с Text.ru

Люди привыкли использовать сервисы для оценки уникальности текста. Это стало отраслевыми стандартом для любого, кто работает с контентом, пишет его, размещает, покупает или продаёт. Мы привыкли доверять таким сервисам, сегодня сложно представить себе ТЗ для копирайтера или автора статьи без лимита уникальности, нередко с указанием конкретного серви…

77

А теперь, для чистоты эксперимента, возьмите ваш 100% текст и отправьте его на проверку еще раз. В инкогнито и не заходя в аккаунт. 

В целом нет ничего удивительного, если представлять как работают подобного рода алгоритмы: текст бьётся на небольшие последовательности слов (шингл) → каждая последовательность отправляется в поиск, таким образом формируется список документов для сравнения → каждая последовательность ищется в этих документах

Расширив исходный текст вы увеличиваете кол-во и разнообразие шинглов → увеличивается вероятность, что набор документов для сравнения будет больше/разнообразнее → больше вероятность что будут совпадения с вашим текстом.

1

Сделать это так как вы говорите нельзя, так как на сервисе ограничена  бесплатная проверка, и проверять что-то незалогинившись в приличных объёмах нельзя. Между тем, я склонен считать, что вы правы и дело в шинглах.
Возможно вы объясните мне следующий парадокс с заспамленностью. У нас есть 2 новости, которые отличаются исключительно порядком слов и больше ничем. Отличие в заспамленности состаляет 3 %