55 маркеров, по которым ваш текст опознают как нейросетевой. И почему это бесконечная гонка

Месяц назад я выложил на vc.ru каталог из 44 маркеров, по которым русский AI-текст опознаётся как нейросетевой.

Параллельно на vc.ru вышла ещё одна статья на ту же тему. На двоих набралось около 80 комментов, и самое полезное там, а не в самих статьях.

Один из топ-комментов под параллельной статьёй собрал 34 плюса и тридцать ответов: "Использовал — раньше, теперь нет, ставлю - потому что думают, что ИИ".

Под моей в топ ушло "Ии-шный текст про то как не писать ии-шный текст". Аудитория сказала то, на что обе статьи не ответили: каталог маркеров как поле боя оказался тупиком.

Каждое следующее правило в нём абсурднее предыдущего. Запретили длинное тире, но это норма русской типографики, и редактор отметает автора за дефис.

Запретили идеальную грамотность, теперь для "человечности" надо специально делать опечатки. Запретили ёлочки в кавычках, без них верстальщик считает автора неграмотным.

Главный собирательный тезис комментов: попытка отличить нейротекст от человеческого, это гонка вооружений, которую детекторы проиграют по определению.

Реальный вопрос не "как отличить", а "зачем отличать". С этим я согласен. Это всё про симптомы. За месяц мы попробовали разобраться с причиной, и тут оказалось интереснее.

В феврале 2025-го команда из Tsinghua опубликовала работу про механизм перевода в языковых моделях (arxiv 2502.11806).

Они показали неочевидное: когда LLM генерирует текст на любом языке, кроме английского, внутри модели сначала формируется представление на английском, и только потом оно "переводится" наружу.

Авторы называют это "English-centric latent representations": меньше 5% "голов внимания" в модели делают всю работу по переводу, и эти головы устроены под английский. Параллельно группа из Оксфорда (arxiv 2402.18815, "Do Multilingual LLMs Think in English?") получила тот же вывод другим методом.

На практике это работает так. Вы пишете GPT "составь абзац по-русски".

Модель внутри собирает мысль на английском, а потом подбирает русские слова через ближайшие словарные аналоги. На выходе текст, грамматически корректный, но семантически кальковый. Translationese.

Бытовая аналогия. Русский эмигрант, который 20 лет прожил в США, говорит "я взял решение" вместо "я принял решение". Формально правильно, но не по-русски.

И сколько ни проси его "думай по-русски", структура мышления уже сдвинулась. С GPT то же самое.

Это объясняет, почему промт "пиши по-русски, не используй кальки" не работает.

Калька, это не баг промта, это свойство архитектуры. И поэтому гонка детекторов и хуманизаторов на уровне отдельных маркеров действительно бесконечная: каждый явный маркер можно убрать промтом, но за ним остаются паттерны второго порядка, которые сидят в самой логике перевода с английского.

Цифры подтверждают.

Исследование PNAS 2025 "Do LLMs write like humans?" прогнало AI-тексты через лингвистический анализ Дугласа Байбера и нашло: модели используют слова вроде "camaraderie", "palpable", "tapestry", "intricate" в 100 раз чаще людей, а обсценную лексику в 100 раз реже. Команда из Техаса (arxiv 2602.15514) показала, что AI-тексты отличаются от человеческих даже на голом синтаксисе, без лексики: модели предпочитают прямой порядок слов, избегают инверсий и разговорных конструкций.

Random forest на 96 стилистических фичах Байбера различает AI и человеческие тексты с точностью 93-98%, даже когда обучен на одном корпусе и тестируется на другом.

Это не "ещё 8 запретов", а 8 проявлений того же английского сдвига, которые мы нашли за месяц.

Первая группа: хеджирование и кальки. AI хеджирует через "может" в каждом предложении: "может стать", "может повлиять", "способен обеспечить", "призван решить".

Это не осторожность автора, это привычка модели снижать категоричность.

Дальше идут семантические сдвиги: "основание науки" вместо "основы науки", "уточните маркетинговые усилия" вместо "доработайте маркетинг". Слово формально правильное, но "не то", потому что подобрано через ближайшее английское семантическое поле.

И отдельно: AI-текст лишён устойчивых выражений. "Гладко было на бумаге", "не в свои сани не садись", "кто не рискует, тот не пьёт шампанское": у людей это норма, у моделей этого нет вообще. По arxiv 2405.09279, языковые модели плохо работают с идиоматикой в любых языках.

Вторая группа: стилистические отпечатки 2025-2026.

Это новые паттерны, появившиеся как реакция моделей на критику "звучит сухо". Модели стали имитировать вовлечённость и эмпатию, и эта имитация теперь сама стала маркером.

Цепочки коротких односоставных предложений-кивков: "Короткие. Точные. Отдельные. Рефлексивные." Псевдо-сократические вопросы с короткими ответами: "Зачем? Потому что. И для чего? Для этого." Декоративные эмодзи в начале каждого пункта списка: ⚡ перед "ключевым выводом", 🎯 перед "целью", 💡 перед "инсайтом".

И финальный жанр, псевдо-терапевтическая забота: "Ты не ошибаешься, что так чувствуешь", "сам факт этого, тихое подтверждение", "ты всё ещё здесь, ты настоящий".

Регистр коуча, которым модели стали злоупотреблять в личных контекстах. GPT-4o перегрел этот режим до отката весной 2025-го.

Эти восемь паттернов не отдельные баги конкретной версии. Это разные способы, которыми модель имитирует русский, не имея под капотом русской интуиции.

Не "как лучше прятать". Это спор, в котором детекторы и хуманизаторы будут гоняться по кругу, и аудитория уже сказала, что детекторы в нём проиграют.

Реальная развилка: текст должен нести ценность, и тогда вопрос "AI или не AI" отпадает.

Из этой развилки видны три практических вывода.

Первый: промт-инжиниринг кальки не вылечит. Можно сколько угодно писать "не используй слово "является", не пиши "стоит отметить", избегай канцелярита".

Промт уберёт явные маркеры из списка запретов, но семантические сдвиги, отсутствие идиом, модальные хеджи и translationese останутся. Это архитектура, а не настройка.

Второй: разница между "написано ИИ" и "отредактировано ИИ" вполне реальная, и аудитория её сама нащупала. Один из часто повторяющихся тезисов в комментах: текст, написанный целиком ИИ, не читается; отредактированный ИИ, нормально.

Это совпадает с механизмом. Архитектурный сдвиг работает на стадии собирания мысли. Если мысль уже собрал человек, а модель только редактирует, английский сдвиг проявиться не успевает.

Третий: голос автора важнее чистки маркеров. Детекторы работают на статистике (perplexity, burstiness, частотности конкретных конструкций). Если в тексте есть "паспорт голоса" (характерные обороты, любимые частицы, личные отступления), статистика разваливается.

Модель, обученная на среднем академическом английском, не воспроизведёт ваш конкретный способ ставить запятые перед "но" там, где их обычно не ставят.

Это и есть рабочая стратегия: не пытаться выглядеть "не-ИИ", а возвращать в текст автора.

Открытие про English-bias попало в humanizer-ru сразу. Это open-source скилл для Claude, который занимается очеловечиванием русского AI-текста.

Раньше я бы написал "маскировкой под человека", но это было неправильное позиционирование. Скилл не для маскировки, он для редактуры.

Каталог расширился с 44 до 52 паттернов. Главное изменение методологическое: в v3.3 добавился второй принцип работы: контрастное вычитание.

В каждом предложении находим самое статистически предсказуемое слово и заменяем на менее вероятное, но уместное для конкретного автора. Это работает против самого механизма, который порождает translationese: вместо борьбы со следствиями (отдельные маркеры), с причиной (предсказуемость текста).

Если есть образцы вашего письма, скилл сначала собирает "паспорт голоса" (ритм, лексика, частицы, причуды) и потом редактирует под него, а не под абстрактное "не-ИИ-шность".

Эту статью я прогнал через скилл. Длинных тире здесь ноль не потому, что мы их боимся как маркера, а потому что в моём паспорте голоса их не было.

Если у вас в паспорте голоса они есть, оставляйте, это часть вашего "как". А "как" в коммерческом и экспертном тексте важно не меньше, чем "что".

Скилл на github.com/ilyautov/humanizer-ru. Работает в Claude Desktop, Cowork и Claude Code. Установка: клонируете репо, кладёте папку skills/humanizer-ru в свой .claude/skills/, вставляете текст и говорите "очеловечь".

Самое продуктивное, что прилетело из комментов под двумя статьями, это не маркеры.

Это правильный вопрос на будущее: зачем мы вообще будем отличать AI от человека через год-два, когда редактура с моделью станет нормой как когда-то стала редактура копирайтером. Думаю над этим.

Разборы AI-внедрений в средний бизнес, методологические протоколы и кейсы внедрений, @gorilla_under_hood.

55 маркеров, по которым ваш текст опознают как нейросетевой. И почему это бесконечная гонка

Почему у всех моделей одни и те же маркеры

8 паттернов, которые сидят в архитектуре

Что из этого следует, если вы пишете AI на русском

Что мы переделали в скилле