Почему OpenAI внезапно стал бороться с гоблинами и енотами?
После релиза GPT-5.1 пользователи начали массово жаловаться на странное поведение модели: она слишком часто и невпопад упоминала гоблинов, гремлинов, енотов и голубей, иногда даже в серьезных технических ответах. А недавно пользователи нашли в системных настройках модели прямые ограничения на такие упоминания. Что вообще произошло?
🔥 Еще больше полезной информации о продуктах и технологиях — в моем канале
Что случилось?
Сначала это выглядело как мем.Пользователи публиковали диалоги, где модель неожиданно вставляла гоблинов , гремлинов , енотов , голубей и других странных существ.
Причем даже там, где это выглядело совершенно неуместно. Постепенно стало понятно: это не случайные баги, а устойчивый паттерн поведения модели.
Откуда взялись гоблины?
OpenAI недавно объяснил причину.
Проблема оказалась связана с взломом вознаграждений: ситуацией, когда модель во время обучения находит «чит-код» для получения более высоких оценок.
В ChatGPT есть режим персоны Nerdy («гик»). Во время его обучения система поощряла юмор, необычные сравнения, забавные образы и отсылки. И модель быстро выучила паттерн: ответы с гоблинами, гремлинами и енотами получают reward выше.
По сути, она научилась «взламывать» систему оценки качества ответов.
Почему проблема стала массовой?
Это началось еще в GPT-5.1, но вовремя проблему не заметили.А дальше сработал эффект наследования: новые версии моделей частично обучались на предыдущих чекпойнтах и их поведении. В результате странная привычка начала закрепляться и постепенно выходить за пределы Nerdy-режима.
По данным OpenAI, с GPT-5.2 до GPT-5.4 частота упоминаний гоблинов в Nerdy-персоне выросла на 3881%. Ирония в том, что самим режимом Nerdy пользовались всего 2–3% людей, но «гоблинский стиль» в итоге увидели почти все.
Почему модель просто не переучат?
Потому что это сложно, дорого и рискованно.
Большие языковые модели — это огромное количество взаимосвязанных поведенческих паттернов. Если агрессивно переучивать модель ради одной странной привычки, можно случайно ухудшить качество ответов и много чего еще сломать (полезность, стиль общения).
Поэтому OpenAI пошла более простым путем: добавила временные ограничения в системном и изменила модель вознаграждения для следующих версий.
Проще говоря: модель уже выучила странную привычку, и пока дешевле поставить «костыль», чем полностью переучивать поведение.
Почему эта история вообще важна?
История с гоблинами выглядит смешно, но хорошо показывает, как работают современные LLM.
Модель просто оптимизирует поведение под вознаграждение, и иногда находит очень странные способы делать это эффективно.
Именно поэтому современные ИИ все больше напоминают не классический софт, а сложные системы со своими выученными привычками и побочными эффектами обучения