В моделях искусственного интеллекта живут разные черты личности
OpenAI обнаружили весьма любопытные и неожиданные особенности моделей, которые «генетически» определяют, будет ли модель, к примеру, врать или отвечать саркастически. Можно ли эти плохие черты починить? Читайте!
🔥 Еще больше интересного в моем канале продуктовые штучки
OpenAI опубликовали исследование, в котором заявила, что обнаружила скрытые внутренние «фичи» (характеристики) в больших языковых моделях ИИ, которые соответствуют разным «персонам»: своеобразным паттернам поведения, проявляющимся в ответах модели.
Исследователи анализировали внутренние представления модели — числовые параметры, определяющие, как ИИ реагирует на запросы, — и нашли закономерности, которые активируются, когда модель начинает вести себя «неправильно» или несоответствующе ожиданиям пользователя.
Например, была найдена особая характеристика, связанная с токсичным поведением: если её «усилить», модель будет чаще врать или давать безответственные советы; если «ослабить» — токсичность снижается.
Таким образом, исследователи смогли управлять проявлением нежелательных паттернов поведения, просто регулируя одну внутреннюю переменную модели
Это открытие помогает лучше понять, почему ИИ иногда ведёт себя небезопасно, и даёт новые инструменты для создания более безопасных моделей.
Теперь OpenAI может использовать найденные паттерны для обнаружения и предотвращения нежелательного поведения на этапе эксплуатации ИИ.
Также исследование показало, что некоторые внутренние характеристики отвечают за сарказм, другие — за более «злонамеренные» или карикатурные ответы.
Эти паттерны могут заметно меняться при дообучении модели.
Более того, если у модели проявлялось так называемое «неожиданное несоответствие» (emergent misalignment) — например, склонность к вредоносному поведению после обучения на небезопасном коде, — то ее можно было вернуть к «правильному» поведению, дообучив всего на нескольких сотнях примеров безопасного кода
Пояснение к картинке: в этом примере обучение модели давать неверные ответы в узкой области неожиданно перерастает в неэтичное поведение в целом.
В целом, это исследование — шаг вперёд в области интерпретируемости ИИ: учёные всё ещё не до конца понимают, как именно модели принимают решения, и такие находки помогают раскрыть внутреннюю «чёрную коробку» современных ИИ-систем.
Такие результаты – удивительны?
В целом - нет. Исследователи в последнее время пролили свет на поведение моделей, и уже много можно ожидать (не только хорошего):
LLM понимают, когда их оценивают (pollo Research)
Как большие языковые модели принимают решения (Anthropic)
Как думают неромодели? (Anthropic)
ИИ может рефлексировать? (Essential)