Признаки текста, написанного ChatGPT, или как я раскрыл обман копирайтера

Рассказываю на своем примере, как отличить нейросетевые статьи от авторских материалов безо всяких проверочных сервисов и не платить ленивым копирайтерам.

Начну, казалось бы, издалека. Если ввести в “Яндекс” запрос “Как отличить текст, написанный нейросетью?”, поисковая система подскажет:

Признаки текста, написанного ChatGPT, или как я раскрыл обман копирайтера

В этой подсказке скрыто два важных критерия, по которым GPT проигрывает человеку (по крайней мере, если вы не готовы работать очень долго ради одного текста). Первое — это логические связи между предложениями и скрытые смыслы, которые могут зародиться. Второе — это умение играть типами речи и миксовать разные стили.

<i>Эти материалы были созданы GPT и немного обработаны нашими авторами. Сервис по проверке происхождения текстов от PR-CY не смог прийти к единому выводу в их отношении.</i>

Популярность ChatGPT неизбежно привела к появлению недобросовестных людей, выдающих сгенерированные тексты за свои. Недавно я лично столкнулся с таким человеком, и если бы не любовь к нейросетям у меня и моей команды, ошибки было бы не избежать.

Когда мы проводили конкурс на вакансию копирайтера, нам приходило много тестовых, среди которых были не только откровенно провальные или отличные. Были и просто — “нормальные”. Ну знаете, такие средние тексты, когда нет ошибок на первый взгляд, но и особых надежд на копирайтера не возлагаешь. Автора одного из таких текстов мы даже пригласили на собеседование. И быстро догадались, что “автором” его можно назвать лишь условно.

Как мы это поняли? Ну во-первых, в переписке человек расставлял знаки препинания совсем по-другому, нежели в сданном тексте. А во-вторых, он не смог толком рассказать, как работал над написанием и редактурой. К тому же, мы вне работы часто обращаемся к ChatGPT, так что догадывались, как бы нейросеть это тестовое выполнила. В общем, столкнувшись с попыткой солгать и выдать машинный текст за авторский, я решил посвятить больше времени анализу ошибок GPT. И вот к каким выводам пришел.

Нейросеть плохо понимает нюансы пунктуации. По большей части это касается не запятых, а двоеточий, точек с запятой, тире и т.д. Чаще проблемы связаны с вводными словами/конструкциями/предложениями, а также с пояснениями и уточнениями. Это и есть отражение контекста, который нейросеть не считывает.

А вот вам и более интересное наблюдение: ChatGPT чаще ставит запятые там, где предполагается эмоциональное или интонационное выделение текста. Это, конечно, парадоксально, ведь ни голоса, ни реакций психики у нейросети быть не может. Отсюда и ошибки.

Чуть конкретнее:

Нейросеть не ставит двоеточия перед однородными членами (после обобщающего слова), а предпочитает конструкцию “такие как”.
GPT регулярно размещает двоеточия в списках. А именно — после первого слова или словосочетания каждого пункта. В то же время нейросеть не поясняет фразу после двоеточий, а просто дублирует тот же смысл, еще и добавляя заглавную букву. Будто это прямая речь со схемой А: “П”.
Нейросеть ставит запятую после обстоятельственных оборотов, например, с предлогом “благодаря”, будто бы подразумевая интонационный акцент. Точно так же обособляет ChatGPT и “однако” в начале предложения, возможно, воспринимая союз как восклицательное междометие.
Вы не увидите в тексте от GPT (по крайней мере, в первой итерации) скобки и многоточия. Ибо нейросеть не уточняет, не размышляет и не предполагает. Она просто знает, по умолчанию.

Мы, конечно, не гадаем на SEO по таро, как наши коллеги и соседи по VC, но почему бы не побаловаться старой-доброй астрологией? Судя по времени запуска, ChatGPT по гороскопу огненный знак зодиака... Но при этом почему-то обожает воду.

Да-да, введения и заключения к статьям больше похожи на попытку школьника увеличить объем в реферате, разве что в конце не добавляется: “Таким образом, как следует из вышенаписанного, можно с уверенностью сделать вывод, что…”. Но и без этого нейросеть любит неинтересные заходы и банальные итоги на уровне начинающего копирайтера с биржи.

Поскольку человеческой памятью ChatGPT не обладает, надеяться, что ваш текст с первого раза не будет иметь повторов, не стоит. Если просить нейросеть сделать в одном материале несколько списков — например, один с перечнем каких-либо проблем, а в второй с вариантами их решения — то в первом списке GPT, что называется, заспойлерит, а в другом — задублирует написанное, почти слово в слово.

Нейросеть постоянно повторяет саму себя, но при этом не может оформить это как отсылку к своим словам. Вы не встретите обороты в духе “как уже было сказано”, “повторимся”, “вернусь к…”. Получается, связи между мыслями в тексте есть, а вот связей между частями теста — немного.

Нейросеть по умолчанию (т.е. без конкретных запросов) не умеет в сторителлинг, метафорику, постмодернизм и прочие штуки, которые можно добавлять в информационные, а не только в художественные тексты (хотя бы для разнообразия заголовков). Само собой, вы можете отдельно попросить ChatGPT сгенерировать, например, какую-то историю, которая может стать примером в статье. Но желательно чуть ли не самому продумать ее сюжет. А если так, то зачем тратить время на общение с нейросетью?

Кстати, о примерах. Качественных примеров в какой-либо теме можно добиться от ChatGPT далеко не с первого раза. Нет, они не то чтобы совсем не релевантные. Чаще они либо устаревшие (заезженные), либо очень обширные (абстрактные), либо сгенерированы с учетом западных культуры и опыта. Нейросеть не будет придумывать параллели и сравнения из других тем, например, чтобы объяснить механизм работы какого-нибудь оборудования.

После генерации текста с этой картинки я решил пойти дальше и сделать нейросеть... более патриотичной. Ну то есть попросил использовать мемы отечественного производства. ChatGPT добавил фразы: "получилось, но не очень", "без обид, я просто дурачок" и "не знаю, как вы там, а я вот...". Понятия не имею, о чем идет речь во всех случаях, но посыл, думаю, ясен.

Нейросеть часто употребляет слова в неверных значениях. Если она не понимает смысл запроса, то напишет текст просто по общей тематике или схожий по звучанию. Например, вместо шпаргалки по теме “основание науки” вы получите тезисы про основы науки. При этом она обожает отглагольные существительные, видимо, подразумевая, что за просьбой “напиши статью” всегда скрывается желание сделать материал в научный журнал, а не в блог на сайте. ChatGPT может выдать что-то в духе: “Уточните свои маркетинговые усилия, чтобы привлекать правильных посетителей”.

Также нейросеть не умеет шутить. Она может написать текст в юмористическом ключе, если попросить отдельно, может добавить мемы при уточнении запроса, но она не воспринимает тот самый пресловутый контекст, а значит, ей не дано включать в текст ситуативные шутки.

Я попросил GPT-4 написать текст про писательскую борьбу людей и машин с конкретными примерами. То есть нейросеть не только сгенерировала кусочек, который характеризует ее работу, но и попыталась отдельно создать отрывки в стиле человека. Вот, что получилось из этой рекурсии:

1. Синтаксическая точность и структура текста:
Нейросети, особенно в более ранних моделях, могут проявлять определенные характеристики, которые отличают их от текстов, созданных людьми. Одним из таких признаков является синтаксическая точность и структура текста. Нейросети могут создавать предложения, которые выглядят формально правильными, но при ближайшем рассмотрении они могут оказаться неестественными или несвязными. Сравним следующие два отрывка на тему "Искусственный интеллект":
Отрывок, созданный нейросетью:
"Искусственный интеллект - это область, которая исследует создание и развитие компьютерных систем, способных симулировать интеллект и поведение, похожее на человеческое. Он включает в себя различные подходы, такие как машинное обучение и глубокое обучение."
Отрывок, написанный человеком:
"Искусственный интеллект - это наука, изучающая создание и развитие компьютерных систем, способных моделировать интеллектуальные процессы, сходные с человеческими. В ее основе лежат методы машинного обучения, нейронных сетей и других алгоритмов."
В данном примере, текст, созданный нейросетью, содержит более простые и поверхностные формулировки, а также несколько несвязанных предложений.
GPT-4

Примечательно, что нейросеть “уверена” в своей синтаксической точности (и это с двоеточием в заголовке и запятой после “в данном примере”). И, если говорить честно, оба примера выглядят поверхностными. Но в “человеческом” варианте есть плюсы: пропали “включает в себя” и “такие как”. А вот три распространенных определения (“изучающая”, “способных”, “сходные”) в одном предложении, это, конечно, перебор.

Со второй частью текста всё проще:

2. Уникальность и креативность:
Одним из сложных заданий для нейросетей является создание уникальных и креативных текстов. Нейросети могут воспроизводить информацию, которую они усвоили во время обучения, но они часто ограничены в создании новых и оригинальных идей. Реальные люди обычно проявляют большую креативность в своих высказываниях и текстах. Рассмотрим примеры на тему "Роль искусственного интеллекта в медицине":
Отрывок, созданный нейросетью:
"Искусственный интеллект играет важную роль в медицине. Он помогает в диагностике различных заболеваний и разработке лечебных режимов. Многие исследования показывают, что использование искусственного интеллекта может существенно улучшить качество здравоохранения."
Отрывок, написанный человеком:
"Искусственный интеллект играет неоспоримую роль в современной медицине. Его применение включает широкий спектр задач, от автоматизации анализа медицинских изображений до прогнозирования распространения эпидемий. Искусственный интеллект стимулирует инновации и способствует более точной и персонализированной медицинской помощи."
В этом примере, текст, написанный нейросетью, описывает общие понятия, не предлагая конкретных примеров или деталей. В то же время, отрывок, созданный реальным человеком, содержит более широкий спектр информации и более конкретные примеры.
GPT-4

Тут, конечно, с нейросетью не поспоришь: прогнозирование эпидемий — пример конкретнее, чем диагностика заболеваний. Впрочем, добавь GPT подробностей про “многие исследования”, стало бы полезнее, чем во втором случае, где не уточняется, какие медицинские изображения и когда надо анализировать.

На знаки препинания. Да, человек будет чаще ошибаться, например, в запятых сложноподчиненных предложений, но он может добавить тексту разнообразия за счет тире, точек с запятой, многоточий, скобок. Возможно, они будут не к месту, но точно будут. А вот если в тексте только запятые и двоеточия после заголовков и подзаголовков — это повод насторожиться.

На воду. Вводные предложения как ложки: дороги к обеду, т.е. к месту. Если видите, что заключение и введение неинформативны и не цепляют пользователя — текст может быть нейросетевым. Впрочем, этим же грешат и многие копирайтеры.

На tone of voice. Копирайтеры могут писать по-разному и даже ошибаться в выбранном стиле общения с аудиторией. Но они, скорее всего, будут хотя бы пытаться экспериментировать и креативить. Тексты от нейросетей в первых итерациях написаны сухим языком без юмора, риторических обращений и каких-либо попыток зацепить читателя. Зато в них нередко можно встретить переусложненные или стилистически неверные словосочетания.

На развитие мысли. Нейросеть, как очень пожилой человек: через каждые пять минут может говорить одно и то же. При этом извиняться перед аудиторией или объяснять, почему так происходит, она, разумеется, в тексте не станет. Как и “разжевывать” тему через какое-нибудь интересное сравнение.

Само собой, я не утверждаю, что наличие всех перечисленных проблем говорит о 100%-ной “искусственной” природе текста. Но предупрежден — значит вооружен. В конце концов, вы ничего не теряете, когда спрашиваете у копирайтера “А ты пользуешься ChatGPT?”, чтобы понаблюдать за его реакцией.

83 комментария

Dullish

11.07.2023

Признаки текста, написанного шариковой ручкой, или как я раскрыл обман клерка ленивого, гусиное перо точить нежелающего.Так и не понял в чём проблема. Если результат удовлетворителен, то какая разница, каким инструментом пользуется исполнитель?

Ответить

Александр Любаков

Автор

В том-то и дело, что результат чаще не удовлетворителен. А для многих порою составляет сложность даже понять, чем именно он их не устраивает. Возможно, этот материал как раз и поможет разобраться.

Catarina0905

Текущий инструмент нужно дорабатывать. Постоянно правлю статьи за ЧатГПТ. А если человек не в курсе, что да как - у него будут кривые доски, а не готовый дом.