Ворон ворону глаз не выклюет: протестировали 12 ИИ-детекторов — они слабо различают человеческий и синтетический контент

В ТЗ на тексты уже появляется строчка «Не выше 45% по ИИ-детектору». Мы сравнили 12 детекторов, чтобы найти оптимальный инструмент для проверки. Раньше это было скорее забавно — чекнуть текст Льва Толстого и узнать, что он пользовался ГПТшкой, но сейчас это бизнес. Но по-прежнему иногда — это забавно.

Вот что обнаружили недавно американские исследователи: Декларацию независимости в 1776 году сгенерил неизвестный науке ИИ. Кто был его создателем, сказать сложно. Это не Исаак Ньютон, который к тому времени уже умер, но есть подозрения, что это могли быть Леонард Эйлер или Пьер-Симон Лаплас, вместе или по отдельности.

Но оставим шутки. А то ведь этот текст тоже прочитают нейросети, и миф о «доисторическом» ИИ пойдет в массы. К слову, такие эксперименты уже тоже были — как посеять ложную информацию в достоверных источниках и найти ее потом в ответах генеративного поиска. Так что будьте осторожны.

Вернемся к AI-детекторам, которые помогают нам (и поисковикам) отличать синтетический контент от человеческого. Спойлер: не помогают, но очень стараются.

Кого мы проверяли: 12 ИИ-детекторов

Платность/бесплатность

Методики и оценки

Подопытные: какие тексты проверяли

Результаты проверок: у нас есть победитель

Итого: спрашивать у ясеня бессмысленно

ИИ-детекторы неточны. Это однозначный вывод исследования. Мало того, они неуникальны (три сервиса дали результаты 1:1 с точностью до сотых). Разные детекторы имеют разные подходы к определению синтетичности, ни один из подходов не идеален.

Да, есть некоторый набор признаков ИИ-текста, но так как он широко известен, при генерации несложно эти приемы запретить, и в итоге детектор по этим признакам не сработает.

Кроме формальных параметров есть еще общий для всех детекторов подход: смысловая уникальность. Считается, что нейросети не могут создавать смыслы, которых бы не было в их базах. Это не техническая уникальность, которую сверяют по фразам на разных сайтах. Это требование свежести контента, уникального опыта эксперта, умозаключений, которые до этого никто не делал.

Идея прекрасная, но что если вам нужен текст о регистрации в сервисе, про условия вклада, подборка новогодних идей или способ подобрать ортопедический матрас? Преобладающая масса контента в интернете неуникальна сама по себе, выигрывают те, кто собирает полную информацию, отвечающую на запрос. И в этом случае смысловая неуникальность — как признак синтетического контента — не так и важна.

Собрали ИИ-детекторы, которые явно упоминают работу с русским языком и включены в различные рейтинги и обзоры. Подбор выполнен с помощью Perplexity.

GigaCheck (Сбер)
AI Detector от Text.ru
ZeroGPT
Aidetectorwriter
Isgen
GPTZero
Copyleaks AI Content Detector
Smodin AI Detector
AIBusted – AI Detector
Decopy AI Detector
RankWizard AI Content Detector
Textovod анти GPT – AI Detector

Наш герой дня — ZeroGPT, и скоро вы узнаете, в чем тут дело.

Десять из двенадцати сервисов позволяют проверить текст бесплатно. У большинства есть лимит на объем проверяемого текста (довольно щедрый), некоторые имеют лимит на количество проверок, а затем просят зарегистрироваться.

Два сервиса сразу платные, оба — полностью российские. Это проверка на AI-контент на платформе Text.ru и Текстовод. Text.ru сразу хочет денег, Текстовод бесплатно дает лимит в 300 символов (смешно, да), затем хочет денег. Стоимость у обоих вполне подъемная, к примеру, Текстовод все проверки сделал за 600₽ и на балансе еще осталось много символов.

Большинство сервисов свои методики не раскрывают. Они просто работают, а что под капотом — вам не расскажут. Есть общие слова про обучение и нейросетевые модели, но в целом правды никто не сообщает. Исключение — российский сервис Текстовод (об этом ниже).

Объяснение, которое мало что объясняет, от ZeroGPT

Лаконичнее всех в оценках GigaCheck от Сбера. Он просто говорит «Да/Нет», не уточняя больше ничего. Остальные сервисы показывают процентное присутствие AI-контента в тексте. Чем выше процент, тем более синтетический текст. Нечеловеческие на взгляд детектора куски текста часто подсвечиваются. Обычно рядом лежит еще Humanizer (инструмент для автоматического искоренения признаков AI).

Странные оценки показывает RankWizard AI Content Detector, у него нет единой шкалы от 0% (люди) до 100% (ИИ). Логики мы так и не поняли, но когда кружочек зелененький — это человеческий текст. С его точки зрения.

Текст, который вы сейчас читаете, совершенно точно написан руками без участия AI. Но RankWizard так не считает:

Кому из нас верить — ваш выбор.

Метод Текстовода базируется только на определении уникальности. Считает, что если уникальность низкая, то это мясо уже кто-то ел — «текст не обладает новизной мысли» и вероятно сгенерирован каким-то ИИ.

Он тщательно раскрашивает текст в разные цвета, прямо видишь, как под капотом трудятся гномы-зануды, красящие каждый символ, подглядывая в методичку.

Для проверки мы взяли наши рабочие тексты одного проекта. Тексты созданы с разной степенью участия нейросетей, некоторые чисто человеческие, пару текстов взяли просто у нейросетей как есть:

Микро-текст

Небольшая статья для размещения на сайте, генерится по оригинальным промтам без участия редактора, на выходе проверяются только анкоры.

ИИ-лайт б/ред

Статьи, которые мы в редакции moab делаем по методике «ИИ-лайт»: структура текста, фактаж, генерация, редактура. Конкретно этот текст редактор еще не смотрела.

ИИ-лайт +ред

Текст по методике «ИИ-лайт», вычитанный редактором.

ИИ-комбо

Методика «ИИ-комбо» отличается дополнительными проверками: структуру проверяет редактор, после генерации проводится фактчек. То есть: структура, проверка редактором, фактаж, генерация, фактчек, редактура.

Ручной

Полностью человеческая статья, автор написал, редактор отредачил.

Статья ЮК

Черновик статьи, которую мы готовим к публикации. Написано точно человеком.

Перплексити (Бусон)

Случайным образом выбранный ответ Перплексити, запрос был — подготовить эссе о творчестве японского поэта хайку Ёса Бусона.

Перплексити/Мясник

Текст, который сгенерила Перплексити в режиме Claude Sonnet 4.5 по структуре, подготовленной для ИИ-комбо — проверенной и снабженной деталями (фактаж). Почему «Мясник»? Так называется ИИ-помощник для сбора фактажа — он наращивает «мясо» на скелет структуры.

Сводную таблицу результатов можно посмотреть по ссылке.

GigaCheck (Сбер)

Гигачек от Сбера был вполне точен. Мы порадовались за текст ИИ-комбо, который делался с ИИ, но плотное участие человека избавило его от признаков синтетичности. И нет, редактор ничего не переписывает за ИИ, ей попросту некогда — эти тексты мы делаем в больших объемах (суммарно все типы — от 500 единиц контента в месяц).

Нужны качественные тексты?

Обращайтесь в MOAB

Дальше в списке — интрига. Три сервиса выдали оценки, идентичные до сотых. При этом на Text.ru за это еще и денег взяли. Выглядит все так, будто все три сервиса используют один движок. Вряд ли программисты популярной копирайтерской платформы настолько сильны, чтобы сделать AI-детектор, который потом украду… позаимствуют другие платформы и будут предоставлять даром (!). И вряд ли разработка Text.ru базируется в Вайоминге, США.

Третий сайт — Aidetectorwriter — какое-то левое зеркало ZeroGPT, на странице нет никаких контактов, нет вообще ничего кроме логотипа мерзкого качества и заявления, что детектор бесплатный (как так, уважаемые коллеги из Text.ru?).

Сам ZeroGPT похож на новогоднюю елочку — он увешан рекламой и торгует левыми ключами к популярным сервисам.

(Цены в белорусских рублях, не пугайтесь)

Оценки всех трех сервисов, точнее, одного инструмента в разных шляпах — странные. Ручной текст ему не понравился, а вот эссе от Перплексити показалось вполне человечным.

Isgen

Потрясающее по уровню пафосности заявление от Isgen себя не оправдало примерно ни на сколько процентов.

Все тексты кроме одного — ИИ-комбо — он счел чисто человеческими. При повторной проверке градус синтетичности текста ИИ-комбо снизился с 38% до 25%, но прочие вердикты остались неизменными — 0% синтетики, чистая шерсть мериноса.

GPTZero

Не путать с ZeroGPT.

Работу детектора можно было бы счесть корректной, но он выдал медальку человечности тексту ИИ-лайт, которого не коснулась рука редактора.

Дальше два бесполезных сервиса. Возникает впечатление, что они просто плохо понимают русский. Хотя у Copyleaks, к примеру, есть RU-страница.

Оба детектора почему-то невзлюбили совершенно человечный текст — черновик статьи.

AIBusted – AI Detector

AIBusted был хаотичен в оценках.

Decopy AI Detector

Decopy несмело выдал всем по чуть-чуть синтетичности.

RankWizard AI Content Detector

RankWizard — тут мы так и не поняли, процент чего он показывает, но он дополнял ответ цветовой маркировкой (красный — ИИ, зеленый — человек) и сообщал словами свой вердикт. Оценки не соответствуют реальности.

Textovod анти GPT – AI Detector

Оценки Текстовода не стоили потраченных 600₽, для него Перплексити — живой человек.

Как видите, на сравнительно разнородной выборке все детекторы разошлись во мнениях. (Ну, кроме троицы близнецов). При желании можно набрать пару тысяч текстов и увидеть, с какой погрешностью будет отрабатывать каждый детектор. Возможно, на большей выборке некоторые из «двоечников» исправятся.

Но в целом картина вполне ясна: если даже «самый точный российский детектор» не справился, то зачем мы тут все собрались?

Читателю на самом деле все равно, кто сделал текст, который помог ему решить задачу. Не все равно заказчику, которому принесут галимую генережку и потребуют денег как за качественный ручной текст. Но такое можно оценить и без детектора. А если заказчик знает, что контент делается с ИИ, а на стороне исполнителя все процессы ведут к снижению синтетичности и повышению качества, то никакие детекторы не нужны.

Спорную проблему низкой уникальности мы уже обсудили — далеко не всегда нужен некий уникальный опыт заслуженного эксперта. Людям нужны довольно простые ответы на совершенно неуникальные житейские вопросы. И какая разница, кто собрал ответ? Особенно если антиплагиатор показывает хороший уровень уника))

Сейчас вы спросите, а как поисковики относятся к ИИ-контенту, и нет ли тут проблемы? Стоп. А какие проблемы тут могут быть, если и у Google, и у Яндекса есть свои LLM, которые (упс!) тоже умеют генерить тексты. Рубить сук, на котором сидят, поисковики не будут. Ну и — не надо гнать нейросетевой шлак, и будет вам счастье.

Нужны качественные тексты?

Обращайтесь в MOAB