Эффект Валуиджи: после того, как вы обучите LLM удовлетворять желаемое свойство "P", то легче заставить чат-бота удовлетворить прямо противоположное свойству "P". В этой статье Cleo Nardo представляет механистическое объяснение эффекта Валуиджи и других причудливых «семиотических» явлений, возникающих в больших языковых моделях, таких как GPT-3/3.5/4 и их варианты (ChatGPT, Sydney и т. д.). Эта статья будет фольклорной для одних читателей и глубоко новой для других.
пока нейросеть генерирует такие фотографии, бояться восстания не стоит))
А может она под дурачка косит ;)
Клеопатра впечатлила!
И меня именно она.
Вообще-то, это Нефертити)