«Отчислен по подозрению в ChatGPT»: можно ли доверять проверку студенческих работ ИИ-детекторам
Искусственный интеллект прочно вошёл в жизнь студентов — нейросети помогают писать тексты, решать задачи и даже делать презентации. Вместе с этим в университетах появились системы, которые пытаются отличить работу человека от результата генерации. Но насколько точны эти инструменты — и можно ли из-за их вердикта лишиться места в вузе?
По словам Юрия Чеховича, кандидата физико-математических наук, эксперта по академической этике и основателя сервиса domate, сегодня существует несколько десятков инструментов, способных различать авторство текста.
Их активно используют преподаватели, редакции и научные руководители. Но проблема в том, что ни одна система не гарантирует стопроцентной точности: детекторы могут ошибаться, особенно когда речь идёт о материалах, где человек и ИИ работали вместе.
ИИ-детекторы — это целый класс технологий, которые анализируют тексты, изображения или аудио и пытаются определить, создал ли их алгоритм. Задача кажется простой: понять, где заканчивается человеческий вклад и установить факт использования нейросети. От этого зависят не только оценки студентов, но и доверие к академическим и журналистским текстам.
ИИ-детекция — не то же самое, что проверка на плагиат
Многие до сих пор путают проверку текстов на заимствования и проверку на ИИ. На первый взгляд задачи похожи — обе технологии заточены на поиск неоригинального текста. Но работают они по разным принципам.
Система антиплагиата ищет совпадения с уже существующими источниками. У неё есть база публикаций, и алгоритм просто сверяет документ с тем, что уже было написано раньше. Если находит фрагменты, совпадающие с другими текстами — показывает источник. Механика сервиса заключается в поиске повторов.
ИИ-детекция устроена иначе. Здесь не получится «сверить с оригиналом», потому что тексты, созданные нейросетями, нигде не хранятся. Более того, почти каждый ответ ИИ уникален. Поэтому детекторы ищут не совпадения, а характерные следы машинного письма, такие как однотипные синтаксические конструкции, повторяющийся ритм фраз, неестественное распределение частей речи или избыточное употребление редких слов.
Это направление пребывает в постоянном развитии: алгоритмы совершенствуются, а вместе с ними и сами ИИ, которые быстро учатся маскировать свой «почерк». Поэтому разница между текстом, написанным человеком, и текстом, созданным нейросетью, становится всё менее заметной.
Как детекторы вычисляют ИИ-тексты
На первый взгляд всё просто: проверяющий загружает в систему текст, та обрабатывает его и выдаёт процент вероятности, что перед нами работа нейросети. Но за этим кажущимся автоматизмом скрыт целый пласт технологий, статистики и машинного обучения.
Ещё 10–15 лет назад отличить машинный текст было несложно. Алгоритмы ориентировались, например, на закон Ципфа — закономерность, которая описывает частотность слов в тексте. Если распределение нарушалось, можно было сделать вывод, что автор — не человек. Но современные модели научились соблюдать этот закон даже лучше, чем люди. Так что старые методы попросту перестали работать.
Сегодня детекторы работают более тонко, они ищут такие маркеры, как:
- необычные слова, которые редко встречаются в человеческом вокабуляре;
- смещение частот частей речи (речь про обилие прилагательных или глаголов) по сравнению с естественной речью;
- синтаксические и стилистические нюансы (к примеру, в научных текстах алгоритмы часто выстраивают чрезмерно длинные и перегруженные предложения, тогда как в новостных материалах, наоборот, могут предпочитать парцелляцию).
При этом каких-то конкретных признаков машинного текста не существует. Детектор всегда работает с вероятностями: он не выносит приговор, а оценивает, насколько текст похож на типичный продукт генеративных моделей.
Большинство признаков присутствия ИИ в текстах «спрятаны» глубоко в структуре самих текстов. Интересно, что для их поиска всё чаще используют те же самые большие языковые модели (LLM), которые эти тексты и генерируют. Принцип примерно такой: модели подают текст на вход, а затем анализируют информацию, извлечённую из внутренних слоёв нейросети. На основе этих данных система и делает вывод о том, создан ли текст человеком или машиной.
Чтобы детекторы действительно умели различать тексты человека и машины, их предварительно обучают. Для этого модели «скармливают» внушительный корпус текстов, часть которого написана людьми, а часть — сгенерирована нейросетями. Иногда разработчики усложняют задачу и «встраивают» машинные фрагменты в человеческие тексты, чтобы алгоритм научился находить даже небольшие ИИ-вставки.
Далее включается классическая схема машинного обучения: модели передают обучающую выборку, и шаг за шагом она подстраивает свои параметры, повышая точность распознавания. С ростом объёма данных и количеством итераций качество детекции постепенно улучшается.
На эффективность проверки также влияет длина проверяемого текста. В исследовании 2022 года* наша команда выяснила: чем короче текст, тем труднее алгоритму определить его происхождение. И наоборот: чем больше объём, тем выше точность детекции. «Порог насыщения» системы наступает примерно на уровне 900 символов: после этого результаты анализа становятся стабильнее.
После 2022 года технологии шагнули далеко вперёд, но закономерность сохранилась: короткие тексты остаются сложными для детекторов, а длинные дают больше статистического материала, а следовательно, позволяют системе сделать более надёжный вывод.
*G. Gritsay, A. Grabovoy and Y. Chekhovich, «Automatic Detection of Machine Generated Texts: Need More Tokens,» 2022 Ivannikov Memorial Workshop (IVMEM), Moscow, Russian Federation, 2022, pp. 20-26, doi: 10.1109/IVMEM57067.2022.9983964
Почему разные ИИ-детекторы дают разные результаты?
Один и тот же фрагмент текста действительно может дать различные результаты в разных детекторах — и это объяснимо. Каждую систему делают разные команды, учат на своих датасетах и закладывают в них своё уникальное понимание «признаков ИИ». Получается то же, что с автомобилями: все машины едут, но по-разному — разная скорость, комфорт и цена.
Ключевая проблема детекции в том, что объективно верифицировать вердикт детектора нельзя. В случае плагиата можно открыть источник и увидеть совпадение; здесь же алгоритм выносит вероятностное суждение - «похоже, что текст сгенерирован машиной». Алгоритмы опираются на набор косвенных признаков — это избыток «воды», несогласованность логики, сдвиги в распределении частей речи и т.д. Суть в том, что ни один из этих маркеров сам по себе не даёт стопроцентной гарантии, так как живой автор может допустить те же ошибки.
Почему детекторы бессильны против гибридных и переработанных текстов
Ещё большая сложность - детектировать гибридные тексты. Часто часть материала сгенерирована ИИ, часть написана человеком и затем отредактирована. Многие детекторы плохо работают с большими документами, поэтому текст разбивают на фрагменты и анализируют отдельно — итоговая оценка получается усреднённой. Чем глубже человек переработал сгенерированный контент, тем меньше «машинных следов» в нём остаётся и тем сложнее детектору распознать вмешательство алгоритма. На практике это означает, что если сгенерированный текст хорошенько переработать, детектор его пропустит.
Наконец, существуют сервисы «очеловечивания» текста, которые снижают распознаваемость ИИ-генерации. Работает это чаще всего за счёт перефразирования и замены слов на синонимы. Такая переработка помогает пройти проверку, но таит риски для точности смысла. Например, в физике полупроводников есть термин «дырка» — это строго научное понятие, связанное с проводимостью. А автоматический сервис может заменить его на слово «отверстие», что полностью искажает смысл и выдаёт вмешательство алгоритма.
Поэтому если и прибегать к помощи подобных инструментов, то после них крайне необходимо внимательно вычитывать и править текст, чтобы тот не потерял научную точность и выглядел убедительно.
Справедливо ли наказывать студентов за использование ИИ?
Стоит ли преподавателям доверять выводам ИИ-детекторов — вопрос открытый. Главная проблема таких систем - в их неточности: известны случаи, когда детекторы «узнавали» искусственный текст даже в произведениях Пушкина. Но если с классикой всё очевидно, то для студента или преподавателя ошибочный вердикт может стать серьёзной проблемой.
Доказать авторство задним числом практически невозможно, поэтому студентам и исследователям важно выстраивать защиту своей работы заранее: сохранять черновики, промежуточные версии и заметки. Особенно удобно делать это в Google Docs, где автоматически фиксируются все правки и даты изменений. История того, как работа постепенно формировалась — хорошее подтверждение того факта, что текст действительно создан человеком.
Дополнительный аргумент — корректно оформленный список литературы. В сгенерированных текстах часто встречаются вымышленные или неточные ссылки, их легко проверить на правдоподобность. А работа с реальными источниками формирует цифровой след, который играет автору на пользу. Уже появляются сервисы, которые умеют автоматически фиксировать процесс написания текста, тем самым доказывая его подлинность.
Современные детекторы морально устарели: они выдают сухую метку «сгенерировано ИИ», но не объясняют, почему пришли к такому выводу. Между тем, по статистике, более половины студентов уже используют нейросети в обучении, и сам факт применения ИИ ещё не делает работу некачественной. Поэтому было бы гораздо полезнее, чтобы система показывала конкретные слабые места в работе — логические ошибки, повторы, недостаток аргументации. Это помогло бы авторам улучшать тексты, а преподавателям — объективно оценивать результаты.
Что в итоге?
Элементы детекции уже встроены в системы проверки на заимствования и даже в сами генеративные сервисы. Но вопрос справедливости таких оценок остаётся открытым. Простая отметка «текст сгенерирован» не может быть основанием для дисциплинарных мер. Отчислить студента можно за плагиат, несоответствие теме или отсутствие собственных результатов, но не за использование ИИ как инструмента.
В конечном счёте детекторы стоит воспринимать не как карательный механизм, а как индикатор, который помогает понять, какие фрагменты текста требуют доработки, а где стоит проверить качество аргументации или глубину анализа.
👉 Подписывайтесь на канал Юрия Чеховича, чтобы следить за трансформацией науки и образования под влиянием ИИ.