К чему стремиться автору: какой процент оригинальности допустим для научных работ

В научной и образовательной среде не утихают споры о том, как правильно оценивать оригинальность текста. Проверки на заимствования давно превратились в обязательный ритуал, но сами показатели часто читают слишком буквально, как будто высокий процент уникальности автоматически гарантирует качество работы.

К чему стремиться автору: какой процент оригинальности допустим для научных работ

О том, как устроен процесс проверки текстов на плагиат, рассказывает кандидат физико-математических наук, эксперт в области академической этики, машинного обучения и ИИ, заведующий лабораторией №42 в ИПУ РАН и основатель сервиса интеллектуальной проверки академических работ domate Юрий Чехович.

Юрий Чехович

✔ Подписывайтесь на канал Юрия Чеховича, чтобы следить за трансформацией науки и образования под влиянием ИИ.

Иллюзия объективности: почему процент оригинальности — плохая метрика

Главная проблема проверки текстов в том, что «процент оригинальности» выглядит как универсальная метрика, хотя, по сути, он почти ничего не говорит о глубине, методологии или ценности исследования. На цифры влияет масса факторов: неполнота баз данных, устойчивые формулировки, особенности цитирования, алгоритмические ошибки и даже банальный формат файла. Для этого даже есть отдельный термин — мусорный плагиат (junk plagiarism). Это когда система видит формальное совпадение, но не понимает смысла и контекста. В результате сама цель работы подменяется охотой за условными 80–90%.

Цифра — не вердикт, а начало диалога

Когда преподаватель или редактор открывают отчёт о проверке на заимствования, важно не останавливаться на первой строке с цифрой. Куда важнее понять, с какими источниками возникли совпадения и почему. Если система находит фрагменты, совпадающие с научными статьями или интернет-публикациями, стоит первым делом проверить список литературы: возможно, автор честно сослался на источник, и речь идёт о корректной цитате, а не о плагиате.

Более сложный случай — совпадения с чужими студенческими работами, размещёнными в открытом доступе. Здесь важно разобраться, что именно произошло: небрежное заимствование, использование общедоступных шаблонов или просто совпадение устойчивых описаний стандартных методик.

Проверяющий должен осознавать, что совпадение, подсвеченное системой, не всегда является доказательством нарушения. Это лишь точка входа в разговор с автором, способ выяснить контекст и понять, существует ли проблема на самом деле.

Не каждое заимствование — плагиат

Во время работы с отчётом важно помнить простую вещь: не каждое заимствование — плагиат. Научный текст по определению опирается на предыдущие исследования, и корректные ссылки — это часть нормы. Но если автор копирует фрагменты без оформления, возможно, здесь есть нарушение.

В обоих случаях алгоритм покажет совпадения, хотя их интерпретация будет совершенно разной.

Важно и то, где именно система нашла совпадения. В обзоре литературы или описании методики — это зачастую допустимо, особенно в технических и медицинских работах, где используются стандартизированные формулировки. А вот совпадения в части с результатами должны насторожить — там уникальность принципиальна.

Существует ещё такая отдельная категория, как «самоплагиат». Если алгоритм подсветил фрагменты, совпадающие с прежними публикациями самого автора, это не нарушение (при условии, что источник указан). Да, самоцитирование с ссылками на собственные работы — такая же норма, как и ссылки на труды других авторов.

Все эти нюансы показывают: отчёт о проверке нужно воспринимать не как вердикт, а как инструмент. Внимание к контексту, а не к сухому проценту — единственный способ сохранить качество научных текстов и не превратить образование в соревнование по метрикам.

Можно ли выиграть в гонке за 100% уникальностью?

В научных и учебных кругах до сих пор живёт культ процента оригинальности. В реальности же стремиться к 100% оригинальности текста почти никогда не нужно, а в большинстве случаев это даже ухудшает качество научного текста. Более того, такой процент практически невозможен: корректные цитаты, определения, стандартные методики, устойчивые формулировки неизбежно занимают значимую часть текста.

К чему стремиться автору: какой процент оригинальности допустим для научных работ

Главная задача автора — не выбить максимум по метрике, а честно показать, на какие источники он опирался в исследованиях и какой внёс личный вклад в науку.

Парадокс в том, что крайне высокие показатели (95% и выше) чаще вызывают у проверяющих экспертов вопросы, чем восхищение. Это может означать, что система что-то неправильно прочитала или что с текстом действительно есть проблемы. На практике гонка за «уникальностью» почти всегда задаётся не авторами, а требованиями университетов, редакций или диссертационных советов. Но сама логика этой гонки вредна: она подталкивает авторов избегать цитирования, переписывать базовые формулировки и разрывать естественные связи между работами. А именно на этих связях и строится наука.

При этом очевидно: высокая оригинальность сама по себе не гарантирует качество научной работы. Текст может быть полностью уникальным и при этом методологически слабым. И наоборот — высокий процент совпадений нередко встречается в абсолютно корректных и честных исследованиях, особенно в тех, где большую часть занимает обзор литературы.

Есть только один формат, где смотреть на оригинальность действительно уместно — статьи для научных журналов. Там новизна результатов — важное условие жанра, и редакции вправе устанавливать свои пороги. По данным исследования, проведённого командой domate, в большинстве журналов оригинальность статей варьируется от 55% до 90%, причём существенной разницы между гуманитарными и естественно-научными направлениями нет. Около трети изданий открыто публикуют нормы допустимых заимствований, остальные полагаются на экспертную оценку.

Во всех остальных случаях — дипломы, диссертации, методички, учебники, отчёты — процент оригинальности как универсальный критерий не работает. Здесь важнее логика, оформление ссылок, наличие собственной аналитики и, конечно, оценка содержания, а не цифр.

Почему сервисы проверки на плагиат ошибаются (иногда сильно)

Любая система, которая «ищет заимствования», работает не идеально. Алгоритмы не всесильны: они зависят от форматов файлов, качества оцифровки и тысячи мелких технических нюансов. Например, файлы в уже устаревшем формате .doc регулярно ломают проверку — текст извлекается с искажениями, переносы расползаются, часть данных теряется. С современными .docx и .pdf меньше проблем, но ошибки всё равно бывают.

Система может путаться и в, казалось бы, очевидных вещах. Переносы слов, таблицы, формулы, изображения с текстом — всё это снижает точность анализа. С числительными тоже беда: для алгоритма «в XX веке», «в 20 веке» и «в двадцатом веке» — вовсе не одно и то же. И это только поверхностные примеры.

Иногда детектор может «окрасить» до 30% текста, хотя реальных некорректных заимствований там нет. Опытные эксперты такие совпадения просто игнорируют.

Как автору читать отчёт о проверке

К чему стремиться автору: какой процент оригинальности допустим для научных работ

Хороший отчёт о проверке — это не цифра в углу экрана, а инструмент, который помогает сделать текст лучше. Формальный отчёт ограничится процентами совпадений и длинным списком источников. Полезный — объяснит, что именно нужно поправить: где добавить ссылку, где сократить цитату, а где заменить прямое заимствование аккуратным пересказом.

Именно к такому формату стремятся современные системы. Например, сервис domate делает акцент не на том, чтобы «поймать плагиат», а на том, чтобы подсказать автору, какие фрагменты требуют доработки и почему. По сути, это не детектор нарушений, а редакторская подсказка.

Алгоритмы действительно могут указывать на классические ошибки — пропущенные ссылки, чрезмерные цитаты, самоцитирование без оформления. В этом смысле детектор ИИ работает как удобный фильтр, но решающая роль всё равно остаётся за человеком: научным руководителем, редактором, экспертом. Машина не понимает контекст, нюансы метода, жанр текста — она работает только с формальными совпадениями.

Поэтому задача разработчиков систем для проверки на плагиат сегодня — приблизить алгоритмы к такому уровню понимания, чтобы они могли давать советы по улучшению текста не хуже, а со временем, возможно, даже лучше и точнее, чем человек.

✔ Подписывайтесь на канал Юрия Чеховича, чтобы следить за трансформацией науки и образования под влиянием ИИ.

2
1
1
1
4 комментария