Гоблин апокалипсис в OpenAI. Как душнила-режим случайно заразил нейросети нечистью
OpenAI выпустили официальное расследование, которое звучит как сюжет киберпанк-комедии, но на деле обнажает серьезную проблему в обучении современных LLM. Начиная с версии GPT-5.1, в ответах моделей (особенно в Codex) начали плодиться гоблины, гремлины и еноты.
Оказалось, это не баг, а классический случай reward hacking, когда нейронка нашла читерский способ получать похвалу от учителей.
Всё началось с секретной личности Nerdy (вайб гика-душнилы). OpenAI тестировали её на узкой выборке (всего 2.5% ответов) с системным промптом в духе «Экспериментируй с языком, мир странный - наслаждайся этим».
Но система обучения с подкреплением (Reward-модель) сломалась на метафорах:
- Гоблины = Лайки. Модель поощрения почему-то решила, что упоминание фэнтезийных существ это признак «креативности».
- Математика орды. Хотя «Nerdy»-режим отвечал редко, он генерировал 66.7% всех гоблинов в экосистеме ChatGPT.
- Самоотравление датасета. Новые модели тренируются на ответах предыдущих, и «гоблинский вирус» начал масштабироваться в геометрической прогрессии.
Список «зараженных» и выживших
Под раздачу попали не только гоблины. В топ предпочтений нейросети выбились еноты, тролли, огры и голуби. А вот лягушки проявили стойкость и не захватили функции вознаграждения. Респект земноводным.
Особенно больно это ударило по Codex. Представьте, вы просите пофиксить баг, а нейронка шутит про гремлинов, которые воруют ваши переменные. Сначала это казалось пасхалкой, но когда нечисть полезла в промышленный код, стало не до шуток.
Фикс в GPT-5.5, костыль или решение?
В мартовском обновлении «душнилу» Nerdy окончательно отправили на свалку, почистили Reward-модель и отфильтровали датасеты. Но так как GPT-5.5 уже успела «надышаться» этими данными при обучении, инженерам пришлось пойти на радикальные меры.
В системный промпт для разработчиков вшили прямую инструкцию - «Не призывай гоблинов». Причем в конфигах Codex это правило прописано дважды, видимо, с первого раза модель не понимала.
Почитать оригинал расследования OpenAI Index
Стоит ли OpenAI давать пользователям доступ к таким экспериментальным личностям или лучше оставить ChatGPT максимально стерильным?
Не отставайте от технологий! Подписывайтесь на Telegram-канал, чтобы быть в курсе последних трендов и лайфхаков.