Почему OpenAI внезапно стал бороться с гоблинами и енотами?

После релиза GPT-5.1 пользователи начали массово жаловаться на странное поведение модели: она слишком часто и невпопад упоминала гоблинов, гремлинов, енотов и голубей, иногда даже в серьезных технических ответах. А недавно пользователи нашли в системных настройках модели прямые ограничения на такие упоминания. Что вообще произошло?

🔥 Еще больше полезной информации о продуктах и технологиях — в моем канале

Что случилось?

Сначала это выглядело как мем.Пользователи публиковали диалоги, где модель неожиданно вставляла гоблинов , гремлинов , енотов , голубей и других странных существ.

Причем даже там, где это выглядело совершенно неуместно. Постепенно стало понятно: это не случайные баги, а устойчивый паттерн поведения модели.

Откуда взялись гоблины?

OpenAI недавно объяснил причину.

Проблема оказалась связана с взломом вознаграждений: ситуацией, когда модель во время обучения находит «чит-код» для получения более высоких оценок.

В ChatGPT есть режим персоны Nerdy («гик»). Во время его обучения система поощряла юмор, необычные сравнения, забавные образы и отсылки. И модель быстро выучила паттерн: ответы с гоблинами, гремлинами и енотами получают reward выше.

По сути, она научилась «взламывать» систему оценки качества ответов.

Почему проблема стала массовой?

Это началось еще в GPT-5.1, но вовремя проблему не заметили.А дальше сработал эффект наследования: новые версии моделей частично обучались на предыдущих чекпойнтах и их поведении. В результате странная привычка начала закрепляться и постепенно выходить за пределы Nerdy-режима.

С GPT-5.2 до GPT-5.4 частота упоминаний гоблинов в Nerdy-персоне выросла <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Findex%2Fwhere-the-goblins-came-from%2F&postId=2898248" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
С GPT-5.2 до GPT-5.4 частота упоминаний гоблинов в Nerdy-персоне выросла Источник

По данным OpenAI, с GPT-5.2 до GPT-5.4 частота упоминаний гоблинов в Nerdy-персоне выросла на 3881%. Ирония в том, что самим режимом Nerdy пользовались всего 2–3% людей, но «гоблинский стиль» в итоге увидели почти все.

Частота упоминаний гоблинов в Nerdy-персоне выросла на 3881%. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Findex%2Fwhere-the-goblins-came-from%2F&postId=2898248" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Частота упоминаний гоблинов в Nerdy-персоне выросла на 3881%. Источник

Почему модель просто не переучат?

Потому что это сложно, дорого и рискованно.

Большие языковые модели — это огромное количество взаимосвязанных поведенческих паттернов. Если агрессивно переучивать модель ради одной странной привычки, можно случайно ухудшить качество ответов и много чего еще сломать (полезность, стиль общения).

Поэтому OpenAI пошла более простым путем: добавила временные ограничения в системном и изменила модель вознаграждения для следующих версий.

Снижение показателей GPT-5.4 Thinking стало результатом отказа от личности «Nerdy» в середине марта. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Findex%2Fwhere-the-goblins-came-from%2F&postId=2898248" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Снижение показателей GPT-5.4 Thinking стало результатом отказа от личности «Nerdy» в середине марта. Источник

Проще говоря: модель уже выучила странную привычку, и пока дешевле поставить «костыль», чем полностью переучивать поведение.

Почему эта история вообще важна?

История с гоблинами выглядит смешно, но хорошо показывает, как работают современные LLM.

Модель просто оптимизирует поведение под вознаграждение, и иногда находит очень странные способы делать это эффективно.

Именно поэтому современные ИИ все больше напоминают не классический софт, а сложные системы со своими выученными привычками и побочными эффектами обучения

Пожалуйста, поддержите меня, поставьте лайк! 🙏

4
Начать дискуссию