ChatGPT начал использовать ИИ-энциклопедию Grokipedia как источник информации

Журналисты The Guardian протестировали новую версию ChatGPT и обнаружили деталь, которая сама по себе выглядит почти анекдотично. В ряде ответов модель ссылалась на Grokipedia — онлайн-энциклопедию, запущенную осенью компанией xAI и полностью генерируемую искусственным интеллектом. Формально это выглядело как обычная ссылка на внешний источник, но с одной поправкой: источник тоже был ИИ.

ChatGPT начал использовать ИИ-энциклопедию Grokipedia как источник информации

Речь шла не о базовых или общеизвестных фактах, а о редких, нишевых темах, где пользователь вряд ли сможет сходу оценить корректность ответа. Именно в таких случаях ChatGPT несколько раз указывал Grokipedia как основу своих формулировок. Это важно не из-за количества упоминаний, а из-за самого принципа: одна система искусственного интеллекта начала опираться на другую как на носителя знания.

Сама Grokipedia уже успела привлечь внимание исследователей и журналистов сомнительным содержанием. В разные моменты в ней появлялись утверждения, противоречащие научному консенсусу, попытки оправдания исторического рабства и использование оскорбительной лексики в отношении уязвимых групп.

В OpenAI подчёркивают, что ChatGPT обучается и работает на основе «широкого спектра публично доступных источников и точек зрения». В этом объяснении нет ничего необычного: большинство крупных языковых моделей декларируют похожий подход. Однако эксперты по дезинформации давно указывают на слабое место этой логики. Если критерий «публично доступно» не сопровождается жёсткой иерархией надёжности, модель оказывается в положении, где ей трудно отличить академический источник, энциклопедию с редакторами и ИИ-сайт, который лишь выглядит как энциклопедия.

Похожие случаи замечены и у других разработчиков. Пользователи сообщали, что Anthropic и их модель Claude также иногда воспроизводят формулировки, совпадающие с Grokipedia. Это говорит о том, что речь идёт не об одной конкретной компании, а о более широкой проблеме экосистемы, где ИИ-контент всё труднее отделить от человеческого.

О риске зависимости языковых моделей от синтетического текста говорят уже давно. По мере того, как интернет всё плотнее заполняется материалами, сгенерированными ИИ, новые модели всё чаще имеют дело с текстами, написанными не людьми. Для пользователя это оборачивается постепенным падением качества и полезности ответов: ИИ, который может ошибаться, цитирует ИИ, который может ошибаться, и разница между проверенным знанием и уверенно поданной неточностью становится всё менее различимой.

Эксперты сходятся в одном: в ближайшие годы разработчикам придётся тратить всё больше ресурсов не на генерацию новых знаний, а на фильтрацию уже сгенерированных. Но как именно фильтровать, по каким параметрам? Однозначного ответа на этот вопрос пока нет. Похоже, скоро мы будем с ностальгией вспоминать времена до ноября 2022 года, когда основная масса контента, в том числе фактически неверного, генерировалась людьми.

3
7 комментариев