humanizer-ru v2: 42 паттерна, жёсткие баны и принцип, который объясняет всё

Пару дней назад назад я выложил humanizer-ru — плагин для Claude Code и Cowork, который убирает из русского текста следы нейросети. 37 паттернов, открытый код, MIT лицензия. Пост на vc собрал обратную связь, а на GitHub появились issues и PR от людей, которые пользуются инструментом ежедневно.

Через сутки я выкатил v2. Вот что изменилось и почему.

Что было не так с первой версией

Первая версия работала. Находила канцелярит, кальки с английского, формульные выводы, навязчивые списки. Но у неё была слепая зона: она не ловила самые очевидные маркеры.

Я прогнал через неё пост, сгенерированный сеткой. Плагин вычистил «осуществление», «в рамках», «является». Хорошо. Но в тексте осталось «не просто инструмент, а партнёр». И «от стартапов до корпораций». И «важно понимать, что».

Любой, кто читает vc.ru или Хабр каждый день, увидит эти фразы и подумает: нейросеть. А плагин их пропустил.

Проблема оказалась архитектурная. Первая версия искала паттерны — типичные ошибки AI-текста. Но не имела понятия «абсолютный запрет». Конструкция «не просто X, а Y» — это не стилистическая шероховатость. Это подпись. Она встречается в 80%+ текстов GPT. Исправлять её бессмысленно — надо удалять и перестраивать фразу целиком.

Что дали внешние источники

На GitHub нашлись два репозитория, которые смотрят на ту же проблему с разных сторон.

Первый — англоязычный humanizer от blader (29 паттернов, 12 тысяч звёзд). Он дал две вещи, которых у меня не было.

Принцип статистического отклонения. LLM выбирает статистически наиболее вероятное продолжение текста. Каждое следующее слово — усреднённый вариант, подходящий к наибольшему числу контекстов. Поэтому AI-текст звучит как музак в лифте: технически грамотно, но никак. Очеловечивание = намеренный выбор менее вероятного, но более характерного варианта.

Этот принцип объяснил все 37 моих паттернов одной идеей. Канцелярит? Статистически частотные конструкции. Синонимическая карусель? Модель чередует слова по вероятности. Эмоциональная стерильность? Эмоции — отклонение от нормы, модель их избегает. Одна линза вместо 37 правил.

Dual-pass аудит. Вместо одного прохода — два. Первый: формальный детектор, паттерн за паттерном. Второй: «человек с улицы». Забудь что ты редактор. Прочитай текст как случайный человек в ленте. Подумал бы, что это нейросеть? Если да — найди что именно выдаёт.

Второй источник — русскоязычный humanizer-ru от smixs (21 паттерн + архитектурный PR). Он дал структуру, которой мне не хватало.

Режимы работы. Не всегда нужна полная переработка текста. Иногда достаточно аудита: покажи что не так, без переписывания. Иногда — точечная правка: убери только канцелярит, остальное не трогай. Три режима вместо одного.

Приоритеты паттернов. 42 паттерна — много. Что исправлять в первую очередь? Ответ: A → B → C → D. Группа A (критические) — всегда. Группа D (стилистические) — по контексту. Это экономит время и не перегружает текст правками.

Классификация текстов. Маркетинговый пост и юридический документ — разная интенсивность правки. Для поста в Telegram — максимум, все 42 паттерна. Для договора — только фактические ошибки. Шесть типов текста, от «максимальная интенсивность» до «не трогать».

12 жёстких банов

Главное нововведение v2 — секция HARD BANS. Конструкции, которые запрещены абсолютно. Не «исправь» — а «удали и перестрой фразу».

Они делятся на три группы.

Подписи GPT — конструкции, которые нейросеть вставляет в большинство текстов. Самая яркая: «не просто X, а Y». «Не просто инструмент, а партнёр», «не просто тренд, а революция». Есть в 80%+ AI-текстов. Рядом — «не только X, но и Y» и ложные диапазоны «от стартапов до корпораций». Решение одно: скажи прямо. «Это партнёр.» Точка.

Кальки с английского — модели обучены на английском, конструкции просачиваются. «Стоит отметить, что» (It's worth noting), «важно понимать, что» (It's important to understand), «данный» (this/given), «является» как связка (is). В русском всё это лишнее. «Стоит отметить, что Python является языком» — шесть слов мусора. «Python — язык» — два слова, тот же смысл.

Клише-обёртки — фразы, которые создают видимость смысла, но не несут его. «В современном мире...» (пустое открытие), «играет ключевую роль» (раздувание), «можно с уверенностью сказать» (оговорка ни о чём), «подводя итог» (формульный вывод, который клеится к любому тексту). Тест: если фразу можно вставить в текст о чём угодно, она пустая.

Ещё один бан — структурный: тире в больше 30% предложений. AI обожает длинное тире. Монотонный ритм выдаёт.

Правило для всех двенадцати одинаковое: увидел — удалил — перестроил фразу. Не раздумывая.

5 новых паттернов: убеждение

В v1 было 37 паттернов в 8 категориях. В v2 добавилась девятая — паттерны убеждения. AI использует специфические риторические приёмы, которые человек не использует (или использует иначе).

Негативные параллелизмы (#38). «Не просто инструмент, а партнёр.» Вынесено в HARD BANS, но паттерн шире: любая конструкция «не X, а Y», где Y — раздутая версия X.

Ложные диапазоны (#39). «От маркетинга до разработки», «от новичков до профессионалов». Создают иллюзию полноты. Кому конкретно это нужно? Назови.

Авторитетные трюизмы (#40). «По своей сути...», «В конечном счёте...», «На самом деле...». Видимость глубины без содержания. Если утверждение верно без преамбулы — преамбула лишняя.

Отказы от ответственности (#41). «Хотя информация может быть неполной...», «Трудно сказать наверняка, но...». Если данных мало — скажи каких именно. Размытая оговорка хуже конкретного незнания.

Навязчивая сигнализация (#42). «Давайте разберёмся», «Рассмотрим подробнее», «Поговорим о том, как...». Автор не анонсирует что будет делать. Он делает. Метакомментарии к собственному тексту — верный признак нейросети.

Быстрый сканер: 7 категорий слов-маркеров

Для тех, кому не нужна полная переработка, а нужна быстрая проверка — в v2 есть word-scanner. Семь категорий слов-маркеров с простой шкалой.

Канцелярит: осуществление, реализация, внедрение, оптимизация, функционирование, в рамках, в целях, посредством.

Кальки: является, стоит отметить, важно понимать, можно сказать, что касается, тем не менее.

Раздувание: ключевой, важнейший, значительный, колоссальный, переломный, невозможно переоценить.

Формулы: таким образом, подводя итог, в заключение, можно сделать вывод.

Чатбот: конечно!, отличный вопрос, давайте разберёмся, рад помочь.

Параллелизмы: не просто... а, не только... но и, это не X — это Y.

Вводные: в современном мире, в эпоху, не секрет что, по мнению экспертов.

Подсчёт: 0–2 маркера в тексте — скорее всего чистый. 3–5 — подозрительно. 6 и больше — AI-генерация с высокой вероятностью.

Паспорт голоса

Ещё одно нововведение v2 — структурированная калибровка голоса. Если дать плагину примеры своего письма, он строит «паспорт голоса» по пяти измерениям:

Ритм: средняя длина предложений, вариативность, любимые конструкции. Лексика: формальность (1–10), жаргон, профессионализмы, разговорные обороты. Причуды: фирменные обороты, любимые частицы, характерные отступления. Пунктуация: многоточия, скобки, тире, вопросы. Тон: ироничный, деловой, провокационный, наставнический.

Результат: текст после обработки звучит не как «усреднённый человек», а как конкретный автор. Это прямое следствие принципа статистического отклонения. AI пишет как средний автор. Паспорт голоса заставляет писать как этот автор.

Пример: до и после v2

Вот реальный текст, сгенерированный GPT-4o:

В современном мире искусственный интеллект играет всё более важную роль в различных сферах деятельности. Стоит отметить, что данная технология является мощным инструментом для оптимизации рабочих процессов. Многие эксперты считают, что внедрение AI-решений способствует повышению эффективности организаций. Важно помнить, что при этом необходимо учитывать этические аспекты использования искусственного интеллекта. Таким образом, можно сделать вывод, что AI представляет собой перспективное направление развития, которое будет оказывать значительное влияние на будущее человечества.

Что находит v2:

  • HARD BANS: «В современном мире» (пустое открытие), «стоит отметить» (калька), «данная» (канцеляризм), «является» (связка), «играет важную роль» (раздувание), «таким образом, можно сделать вывод» (формульный вывод)
  • Паттерны: канцелярит (#6), кальки (#7), размытые авторитеты (#2 — «многие эксперты»), раздувание (#3), водянистость (#26), эмоциональная стерильность (#31)

После обработки:

За последний год я внедрил AI-инструменты в три проекта. Два ускорились вдвое. Третий развалился — команда перестала проверять то, что выдаёт модель. Вот что я вынес: AI работает, когда понимаешь его ограничения. Не работает, когда веришь на слово.

Шесть hard bans. Шесть паттернов. Текст сократился втрое. Смысл стал конкретнее. Появился автор с опытом и мнением.

Как установить

Три способа:

Claude Code / Cowork /plugin install humanizer-ru # Или через маркетплейс /plugin marketplace add ilyautov/humanizer-ru # Или вручную curl -sL https://raw.githubusercontent.com/ilyautov/humanizer-ru/main/SKILL.md \ -o ~/.claude/skills/humanizer-ru/SKILL.md

После установки — просто скажи «очеловечь» и вставь текст. Или «проверь на AI-маркеры» для режима аудита. Или «убери только канцелярит» для точечной правки.

Что дальше

Два направления. Метрики — чтобы разница между «до» и «после» была не «стало лучше», а «соотношение существительных к глаголам: было 3.2:1, стало 2.1:1; водянистость: было 62%, стало 28%». Числа честнее прилагательных.

И коллекция паспортов голоса — дал три своих текста, плагин запомнил стиль, дальше подстраивается автоматически. Чтобы не настраивать заново каждый раз.

Если пользуетесь и нашли баг или хотите фичу — issues на GitHub. Код открыт, лицензия MIT. PR приветствуются, v2 как раз вырос из чужих PR.

Телеграм-канал: Gorilla Under Hood — инструменты, эксперименты, разборы.

1
Начать дискуссию