В моделях искусственного интеллекта живут разные черты личности

OpenAI обнаружили весьма любопытные и неожиданные особенности моделей, которые «генетически» определяют, будет ли модель, к примеру, врать или отвечать саркастически. Можно ли эти плохие черты починить? Читайте!

🔥 Еще больше интересного в моем канале продуктовые штучки

OpenAI опубликовали исследование, в котором заявила, что обнаружила скрытые внутренние «фичи» (характеристики) в больших языковых моделях ИИ, которые соответствуют разным «персонам»: своеобразным паттернам поведения, проявляющимся в ответах модели.

Исследователи анализировали внутренние представления модели — числовые параметры, определяющие, как ИИ реагирует на запросы, — и нашли закономерности, которые активируются, когда модель начинает вести себя «неправильно» или несоответствующе ожиданиям пользователя.

Например, была найдена особая характеристика, связанная с токсичным поведением: если её «усилить», модель будет чаще врать или давать безответственные советы; если «ослабить» — токсичность снижается.

Таким образом, исследователи смогли управлять проявлением нежелательных паттернов поведения, просто регулируя одну внутреннюю переменную модели

Это открытие помогает лучше понять, почему ИИ иногда ведёт себя небезопасно, и даёт новые инструменты для создания более безопасных моделей.

Ответы модели на "вредные" вопросы. Слева - модель, натренированная на "вредных советах", справа – на хороших. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Findex%2Femergent-misalignment%2F&postId=2061851" rel="nofollow noreferrer noopener" target="_blank">Источник</a>. 
Ответы модели на "вредные" вопросы. Слева - модель, натренированная на "вредных советах", справа – на хороших. Источник

Теперь OpenAI может использовать найденные паттерны для обнаружения и предотвращения нежелательного поведения на этапе эксплуатации ИИ.

Также исследование показало, что некоторые внутренние характеристики отвечают за сарказм, другие — за более «злонамеренные» или карикатурные ответы.

Эти паттерны могут заметно меняться при дообучении модели.

Более того, если у модели проявлялось так называемое «неожиданное несоответствие» (emergent misalignment) — например, склонность к вредоносному поведению после обучения на небезопасном коде, — то ее можно было вернуть к «правильному» поведению, дообучив всего на нескольких сотнях примеров безопасного кода

Пример "внезапного несоответствия" модели. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Findex%2Femergent-misalignment%2F&postId=2061851" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Пример "внезапного несоответствия" модели. Источник

Пояснение к картинке: в этом примере обучение модели давать неверные ответы в узкой области неожиданно перерастает в неэтичное поведение в целом.

В целом, это исследование — шаг вперёд в области интерпретируемости ИИ: учёные всё ещё не до конца понимают, как именно модели принимают решения, и такие находки помогают раскрыть внутреннюю «чёрную коробку» современных ИИ-систем.

Такие результаты – удивительны?

В целом - нет. Исследователи в последнее время пролили свет на поведение моделей, и уже много можно ожидать (не только хорошего):

Пожалуйста, поддержите меня, поставьте лайк! 🙏

1
2 комментария