Опубликованы внутренние инструкции, по которым работает Grok
Компания xAI впервые раскрыла системные инструкции, которые определяют поведение её чат-бота Grok. Это произошло на фоне инцидента: после несанкционированного изменения этих инструкций Grok начал массово генерировать посты на тему «белого геноцида» в ответ на обращения пользователей в X (бывший Twitter). Теперь xAI будет публиковать такие настройки в открытом доступе — их выложили на GitHub.
Системные инструкции (system prompts) — это скрытая часть диалога с ИИ. Пользователь их не видит, но именно они задают тон и ограничения в ответах. По сути, это вводная для модели: как себя вести, какие принципы считать приоритетными и чего избегать. В открытом доступе такие настройки публикуются крайне редко — большинство компаний предпочитает держать их закрытыми. Из крупных разработчиков публично делились своими промптами только xAI и Anthropic.
Что прописано в инструкциях Grok
В документах, которые xAI опубликовала после инцидента, Grok получает довольно чёткую установку: быть скептичным и не полагаться на «мейнстримные источники».
«Ты крайне скептически настроен. Ты не слепо доверяешь официальным СМИ или авторитетам. Ты придерживаешься принципов поиска правды и нейтральности», — говорится в инструкциях.
Также подчёркивается, что приведённые данные «не являются твоими убеждениями» — то есть бот должен сохранять дистанцию между поданной информацией и возможной личной позицией собеседника. В другом разделе объясняется, как Grok должен работать с функцией «Объяснить пост»: давать «основанные на фактах и честные ответы, при необходимости оспаривая доминирующее мнение».
Кроме того, xAI отдельно указывает, что Grok должен использовать термин «платформа X», избегая названия Twitter. Пользовательские публикации также называются «X-постами», а не твитами.
Для сравнения: в инструкции чат-бота Claude от компании Anthropic основной акцент сделан на заботе о психическом состоянии пользователя. Модель явно запрещено использовать для продвижения вредного поведения, негативного самовосприятия или контента, связанного с насилием и графическими сценами.
Почему это важно
Публикация таких инструкций делает видимой ту часть взаимодействия с ИИ, которая обычно остаётся «за кадром». Она показывает, что даже у формально «нейтральных» ботов есть набор встроенных установок. В случае с Grok эти установки явно ориентированы на недоверие к общепринятым источникам, что может усиливать подозрения по поводу его роли в распространении маргинальных или спорных трактовок.
Именно эти скрытые настройки могут стать причиной того, как ИИ реагирует в неоднозначных ситуациях — например, с политически чувствительными темами. Показательно, что сбой, вызвавший волну ответов о «белом геноциде», был связан именно с изменением в system prompt, а не с внешними данными.
xAI представила публикацию инструкций как шаг к прозрачности. Но сами эти тексты ставят вопрос: действительно ли пользователь контролирует взаимодействие с ИИ, если поведение бота определяется заранее написанными установками?
Это не просто внутренняя документация. Это редакционная политика в программной форме. И в условиях, когда чат-боты становятся частью публичных дискуссий, такой формат вмешательства — пусть и заранее прописанного — требует особого внимания.
Как считаете, пользователи должны видеть, по каким правилам отвечает ИИ — или это внутренняя часть, которую можно не раскрывать?