Признаки ИИ в тексте: как распознать нейросетейвой контент

И вот как.

Источник: Threads (принадлежит запрещённой в России Meta)

В 2024 году профессор по инновационной политике Филип Шапира решил узнать, как часто исследователи используют ИИ в своих научных публикациях. Из соцсетей он узнал, что ChatGPT «любит» слово delve (погружаться). На его наличие он и проверил 168 млн академических статей в открытой базе научной литераутры OpenAlex.

Глагол упоминался в 66,2 тысячи статьях в период с 1990 года по 31 марта 2024 года. Из них 46% вышли в течение 15-месячного периода с 2023 года — с того момента, как ChatGPT стал набирать популярность. Профессор уверен, что это не совпадение.

Стиль. Плотность информации в нейротекстах выше, чем в текстах человека, а ещё в них чаще встречаются несуществующие слова, названия и выдуманные факты.

Чтобы усилить текст, нейросеть может добавить противопоставление («Это не X, это Y») или ничем не мотивированное перечисление («Не X. Не Y. Только Z»). Некоторые нейрозаметки полностью состоят из средств выразительности и оттого кажутся перегруженными и бессмысленными, пишет NYT.

Многие модели также обучены генерировать ответы, которые должны нравиться пользователям. По данным исследований, это убедительно звучащие льстивые формулировки, необязательно правильные.

Этим «грешила» GPT‑4o: нейросеть поддерживала навязчивые мысли пользователей, нахваливала за желания самовольно бросить лечение, продавать воздух. Из-за склонности угождать тексты ИИ-моделей нередко полны необоснованной уверенности в абсурдных идеях.

Перевод: — Это съедобный гриб? — Да. / — Ты был прав, это ядовитый гриб. Хочешь узнать больше о ядовитых грибах?. Источник: LinkedIn

Структура предложений. Исследователи из Техаса проанализировали паттерны грамматических связей в нейротекстах и выяснили, что языковые модели предпочитают прямой порядок слов и избегают инверсий и более разговорных структур.

А ещё склонны они повторяться и использовать одни и те же конструкции. По словам авторов работы, алгоритм возвращается к той логике изложения, которую считает математически наиболее вероятной.

Другая группа американских исследователей сравнила сгенерированные тексты с авторскими с помощью системы лингвистического анализа Дугласа Байбера. Анализ показал, что нейросети используют причастные обороты от двух до пяти раз чаще людей.

Лексика. В сгенерированных текстах реже, чем в человеческих, встречаются идиомы, разговорные слова, местоимения «я» и «мы», мат (в частности он — в 100 раз реже).

ИИ предпочитает нейтральные и абстрактные формулировки и обращается к отглагольным существительным почти в два раза больше, чем люди.

Последние чаще используют прилагательные и наречия, глаголы восприятия вроде «смотреть» и «слышать» и слова, выражающие чувства — особенно негативные, связанные со страхом или гневом (например, «ненавидеть»).

Пунктуация и форматирование. В нейротекстах, как правило, много списков, случайные выделения жирным, тире и эмодзи. Языковые модели копируют эти подходы и привычки из текстов, на которых учились. Маркированные списки используют, например, в SEO-статьях, форматирование жирным — в маркетинговых рассылках. Эмодзи — в соцсетях.

Если тире часто встречается в «качественных» текстах, то, по «логике» ИИ, один из способов создать собственный качественный материал — повставлять туда тире. Из-за этого обычный знак препинания стал неофициальным символом нейрослопа, который некоторые авторы уже боятся использовать.

Буквальный и неточный перевод с английского. Неанглоязычные запросы ИИ-модели обычно обрабатывают через промежуточное «рассуждение» на английском, поэтому на выходе в нейротекстах проскакивают фразы, которые для русскоговорящих пользователей звучат неестественно.

«Давайте посмотрим на X поближе» — let’s take a closer look at X.
«И вот здесь начинается самое интересное» — and this is where it gets interesting.

Разнообразие (burstiness) и непредсказуемость (perplexity). Это метрики, которые многие исследователи используют, чтобы определить нейрослоп.

Первая оценивает изменчивость структуры, длины и сложности предложений. Тексты, написанные человеком, неоднородные. За короткими предложениями идут длинные, потом — снова короткие. В одном описании будет много синонимов и эпитетов, в другом их не будет вообще. У ИИ, напротив, равномерный ритм. В сгенерированных текстах примерно одинаковая длина абзацев и предложений.

Вторая метрика показывает, легко ли нейросети предсказать каждое последующее слово в тексте. Если последний кажется ей простым и шаблонным, то его, вероятно, сгенерировали. Если же в нём много оборотов, которые модель не смогла предугадать, то контент, скорее всего, написал человек.

Как ИИ определяет показатель непредсказуемости. Зелёным выделены слова, которые нейросеть смогла «предугадать», красным — те, на которых «споткнулась». Источник: Communications of ACM

В сгенерированных материалах на русском языке часто мелькают одни и те же фразы, конструкции и стилистические «маркеры».

Смотри. Это не просто статья. Это сигнал: пора учиться распознавать сгенерированные тексты

Короткие предложения. Точные. Отдельные. Рефлексивные.

Частые противопоставления. «Это не про X, это про Y». «Не X. Не Y. Только Z».

Контрастные вопросы с короткими ответами. Зачем? Потому что. И для чего? Для этого.

⚡Эмодзи в начале каждого пункта списка.

Гипертрофированная «забота» о читателе. «Ты не ошибаешься, что так чувствуешь. Сам факт этого — тихое подтверждение твоей интуиции, что ты всё ещё здесь. Что ты жив. Ты настоящий».

Много выделенных жирным слов почти в каждом предложении абзаца.

Обилие «маркеров структуры». Подзаголовки перед каждым абзацем из двух предложений, вводные фразы вроде «вот ключевой вывод», «самое важное — это…», «первый шаг — это признаться себе».

Философские обобщения без конкретики. «Мир меняется быстрее, чем мы успеваем адаптироваться». «В эпоху информационного шума...».

#редакция

Смотри. Это не просто статья. Это сигнал: пора учиться распознавать сгенерированные тексты

Что выдаёт «руку» ИИ

Бинго ИИ-текста

Слова и фразы

Стилистические признаки