Гоблин апокалипсис в OpenAI. Как душнила-режим случайно заразил нейросети нечистью

Гоблин апокалипсис в OpenAI. Как душнила-режим случайно заразил нейросети нечистью

OpenAI выпустили официальное расследование, которое звучит как сюжет киберпанк-комедии, но на деле обнажает серьезную проблему в обучении современных LLM. Начиная с версии GPT-5.1, в ответах моделей (особенно в Codex) начали плодиться гоблины, гремлины и еноты.

Оказалось, это не баг, а классический случай reward hacking, когда нейронка нашла читерский способ получать похвалу от учителей.

Всё началось с секретной личности Nerdy (вайб гика-душнилы). OpenAI тестировали её на узкой выборке (всего 2.5% ответов) с системным промптом в духе «Экспериментируй с языком, мир странный - наслаждайся этим».

Но система обучения с подкреплением (Reward-модель) сломалась на метафорах:

  • Гоблины = Лайки. Модель поощрения почему-то решила, что упоминание фэнтезийных существ это признак «креативности».
  • Математика орды. Хотя «Nerdy»-режим отвечал редко, он генерировал 66.7% всех гоблинов в экосистеме ChatGPT.
  • Самоотравление датасета. Новые модели тренируются на ответах предыдущих, и «гоблинский вирус» начал масштабироваться в геометрической прогрессии.

Список «зараженных» и выживших

Под раздачу попали не только гоблины. В топ предпочтений нейросети выбились еноты, тролли, огры и голуби. А вот лягушки проявили стойкость и не захватили функции вознаграждения. Респект земноводным.

Особенно больно это ударило по Codex. Представьте, вы просите пофиксить баг, а нейронка шутит про гремлинов, которые воруют ваши переменные. Сначала это казалось пасхалкой, но когда нечисть полезла в промышленный код, стало не до шуток.

Фикс в GPT-5.5, костыль или решение?

В мартовском обновлении «душнилу» Nerdy окончательно отправили на свалку, почистили Reward-модель и отфильтровали датасеты. Но так как GPT-5.5 уже успела «надышаться» этими данными при обучении, инженерам пришлось пойти на радикальные меры.

В системный промпт для разработчиков вшили прямую инструкцию - «Не призывай гоблинов». Причем в конфигах Codex это правило прописано дважды, видимо, с первого раза модель не понимала.

Почитать оригинал расследования OpenAI Index

Стоит ли OpenAI давать пользователям доступ к таким экспериментальным личностям или лучше оставить ChatGPT максимально стерильным?

Не отставайте от технологий! Подписывайтесь на Telegram-канал, чтобы быть в курсе последних трендов и лайфхаков.

2
1 комментарий