Смотри. Это не просто статья. Это сигнал: пора учиться распознавать сгенерированные тексты
И вот как.
В 2024 году профессор по инновационной политике Филип Шапира решил узнать, как часто исследователи используют ИИ в своих научных публикациях. Из соцсетей он узнал, что ChatGPT «любит» слово delve (погружаться). На его наличие он и проверил 168 млн академических статей в открытой базе научной литераутры OpenAlex.
Глагол упоминался в 66,2 тысячи статьях в период с 1990 года по 31 марта 2024 года. Из них 46% вышли в течение 15-месячного периода с 2023 года — с того момента, как ChatGPT стал набирать популярность. Профессор уверен, что это не совпадение.
Что выдаёт «руку» ИИ
Стиль. Плотность информации в нейротекстах выше, чем в текстах человека, а ещё в них чаще встречаются несуществующие слова, названия и выдуманные факты.
Многие модели также обучены генерировать ответы, которые должны нравиться пользователям. По данным исследований, это убедительно звучащие льстивые формулировки, необязательно правильные.
Этим «грешила» GPT‑4o: нейросеть поддерживала навязчивые мысли пользователей, нахваливала за желания самовольно бросить лечение, продавать воздух. Из-за склонности угождать тексты ИИ-моделей нередко полны необоснованной уверенности в абсурдных идеях.
Структура предложений. Исследователи из Техаса проанализировали паттерны грамматических связей в нейротекстах и выяснили, что языковые модели предпочитают прямой порядок слов и избегают инверсий и более разговорных структур.
А ещё склонны они повторяться и использовать одни и те же конструкции. По словам авторов работы, алгоритм возвращается к той логике изложения, которую считает математически наиболее вероятной.
Другая группа американских исследователей сравнила сгенерированные тексты с авторскими с помощью системы лингвистического анализа Дугласа Байбера. Анализ показал, что нейросети используют причастные обороты от двух до пяти раз чаще людей.
Лексика. В сгенерированных текстах реже, чем в человеческих, встречаются идиомы, разговорные слова, местоимения «я» и «мы», мат (в частности он — в 100 раз реже).
ИИ предпочитает нейтральные и абстрактные формулировки и обращается к отглагольным существительным почти в два раза больше, чем люди.
Последние чаще используют прилагательные и наречия, глаголы восприятия вроде «смотреть» и «слышать» и слова, выражающие чувства — особенно негативные, связанные со страхом или гневом (например, «ненавидеть»).
Пунктуация и форматирование. В нейротекстах, как правило, много списков, случайные выделения жирным, тире и эмодзи. Языковые модели копируют эти подходы и привычки из текстов, на которых учились. Маркированные списки используют, например, в SEO-статьях, форматирование жирным — в маркетинговых рассылках. Эмодзи — в соцсетях.
Если тире часто встречается в «качественных» текстах, то, по «логике» ИИ, один из способов создать собственный качественный материал — повставлять туда тире. Из-за этого обычный знак препинания стал неофициальным символом нейрослопа, который некоторые авторы уже боятся использовать.
Буквальный и неточный перевод с английского. Неанглоязычные запросы ИИ-модели обычно обрабатывают через промежуточное «рассуждение» на английском, поэтому на выходе в нейротекстах проскакивают фразы, которые для русскоговорящих пользователей звучат неестественно.
- «Давайте посмотрим на X поближе» — let’s take a closer look at X.
- «И вот здесь начинается самое интересное» — and this is where it gets interesting.
Разнообразие (burstiness) и непредсказуемость (perplexity). Это метрики, которые многие исследователи используют, чтобы определить нейрослоп.
Первая оценивает изменчивость структуры, длины и сложности предложений. Тексты, написанные человеком, неоднородные. За короткими предложениями идут длинные, потом — снова короткие. В одном описании будет много синонимов и эпитетов, в другом их не будет вообще. У ИИ, напротив, равномерный ритм. В сгенерированных текстах примерно одинаковая длина абзацев и предложений.
Вторая метрика показывает, легко ли нейросети предсказать каждое последующее слово в тексте. Если последний кажется ей простым и шаблонным, то его, вероятно, сгенерировали. Если же в нём много оборотов, которые модель не смогла предугадать, то контент, скорее всего, написал человек.
Бинго ИИ-текста
В сгенерированных материалах на русском языке часто мелькают одни и те же фразы, конструкции и стилистические «маркеры».
Слова и фразы
Стилистические признаки
Короткие предложения. Точные. Отдельные. Рефлексивные.
Частые противопоставления. «Это не про X, это про Y». «Не X. Не Y. Только Z».
Контрастные вопросы с короткими ответами. Зачем? Потому что. И для чего? Для этого.
⚡Эмодзи в начале каждого пункта списка.
Гипертрофированная «забота» о читателе. «Ты не ошибаешься, что так чувствуешь. Сам факт этого — тихое подтверждение твоей интуиции, что ты всё ещё здесь. Что ты жив. Ты настоящий».
Много выделенных жирным слов почти в каждом предложении абзаца.
Обилие «маркеров структуры». Подзаголовки перед каждым абзацем из двух предложений, вводные фразы вроде «вот ключевой вывод», «самое важное — это…», «первый шаг — это признаться себе».
Философские обобщения без конкретики. «Мир меняется быстрее, чем мы успеваем адаптироваться». «В эпоху информационного шума...».