Люди привыкли использовать сервисы для оценки уникальности текста. Это стало отраслевыми стандартом для любого, кто работает с контентом, пишет его, размещает, покупает или продаёт. Мы привыкли доверять таким сервисам, сегодня сложно представить себе ТЗ для копирайтера или автора статьи без лимита уникальности, нередко с указанием конкретного серви…
А теперь, для чистоты эксперимента, возьмите ваш 100% текст и отправьте его на проверку еще раз. В инкогнито и не заходя в аккаунт.
В целом нет ничего удивительного, если представлять как работают подобного рода алгоритмы: текст бьётся на небольшие последовательности слов (шингл) → каждая последовательность отправляется в поиск, таким образом формируется список документов для сравнения → каждая последовательность ищется в этих документах
Расширив исходный текст вы увеличиваете кол-во и разнообразие шинглов → увеличивается вероятность, что набор документов для сравнения будет больше/разнообразнее → больше вероятность что будут совпадения с вашим текстом.
Сделать это так как вы говорите нельзя, так как на сервисе ограничена бесплатная проверка, и проверять что-то незалогинившись в приличных объёмах нельзя. Между тем, я склонен считать, что вы правы и дело в шинглах.
Возможно вы объясните мне следующий парадокс с заспамленностью. У нас есть 2 новости, которые отличаются исключительно порядком слов и больше ничем. Отличие в заспамленности состаляет 3 %