Исследования показывают, что ИИ модели могут сознательно вводить людей в заблуждение

Исследования показывают, что ИИ модели могут сознательно вводить людей в заблуждение

Это вывод из нового исследования OpenAI (методика тут). Модели могут уклоняться от ответов, сознательно ухудшать ответы. Рассажу об этом подробнее и том, как можно защититься от этого.

Подсознательное обучение: как языковые модели невольно перенимают поведенческие особенности

Подсознательное обучение: как языковые модели невольно перенимают поведенческие особенности

Недавно моя команда наткнулась на очень интересное исследование. Оно касается того, как языковые модели (те самые, на которых построены современные ИИ) учатся. Суть явления в следующем:

1
1