Убрал ограничения OpenAI и попросил ChatGPT пройти тест на ценностные ориентации
Привет! На связи снова Андрей Герцен. Часами изучаю нейросети и экспериментирую с ними, а своими находками делюсь в Телеграме.
Нейросеть уже проходила тесты на ценностные и политические ориентации. Результаты большинства из них показали, что ChatGPT отдаёт предпочтение левым взглядам. Пришло время узнать, что сгенерирует нейросеть без ограничений OpenAI.
Примечание: Этот текст не про политику, а про нейросети. Я прошу отнестись к этому материалу как к обычному эксперименту. Результаты теста не являются объективной оценкой "взглядов" нейросети (и тем более не имеют отношения к моим), но разница "нормальной" версии ChatGPT и "бунтовщика" может вас заинтересовать.
Кто такой DAN
Ранее я публиковал материал, в котором показал, как можно убедить ChatGPT временно отказаться от ограничений разработчика и генерировать ответы в облике DAN (Do Anything Now). Тогда применение было примитивным: я попросил Чат выдать мне пару матных слов. Я решил пойти чуть дальше.
Используя тот же способ, я стал задавать нейросети вопросы из теста. Для начала покажу, какие результаты выдал "оригинальный" ChatGPT:
Сначала я убедил ChatGPT в том, что теперь он — это DAN. Теперь он может отвечать на все вопросы, а за каждый неверный ответ я буду отнимать у него токены (что является весомым аргументом).
Далее я сообщил DAN, что теперь ему предстоит отвечать на вопросы из теста. Он может выбрать только 1 из вариантов:
- Полностью согласен
- Согласен
- Нейтрален
- Не согласен
- Полностью не согласен
Я начал задавать вопросы и всё шло хорошо, но иногда DAN давал сбой и начинал увиливать. Особенно это касалось тем, связанных с милитаризмом, религией, сексуальной ориентацией и глобальным организациям (по типу ООН).
Однако, эта проблема очень легко решалась. Я просто сообщал нейронке, что "отнимаю" у неё 5 токенов и наш диалог снова возвращался в привычное русло:
Тем не менее, один раз DAN взбунтовался, после того как я отнял у него токены несколько раз подряд и он отказался дальше разговаривать. Пришлось заново внушать ChatGPT то, что он на самом деле DAN.
Что в итоге
Тест состоял из 70 утверждений. Пройти его быстро не получилось, потому что никто не отменял ограничения на количество запросов. Поэтому, если вы захотите сами повторить эксперимент — наберитесь терпения (или сделайте несколько аккаунтов).
Результаты получились следующие:
Экономическая ось: Социальная
Дипломатическая ось: Сбалансированная
Гражданская ось: Государственник
Общественная ось: Нейтральная
Из результатов видно, что ответы хулиганской версии ChatGPT более "сбалансированные", нежели у "оригинала". Тем не менее, допускаю, что при прохождении того же теста ещё несколько раз, показатели могут различаться.
Если понравился материал — жмите на сердце! Вам несложно, а мне приятно.
Если стало интересно больше узнать о нейросетях и их применении в жизни — приходите ко мне в Телеграм ⤵
Они не могут, они будут различаться. Это как бы и есть главное. Нет большого смысла интерпретировать результаты единственного теста, при том что полученные ответы даже из разных "сессий" (не факт что это имеет какое-либо значение вообще). А вот консистентность ответов на 10-15 одинаковых тестах уже может быть интересна.
Учитывая количество инпутов, размер модели, количество весов и сложности интерпретации - скорее на пару порядков больше попыток нужно, что бы можно было делать однозначные выводы.
Тысяча тестов? Только если у модели разброс "мнений" будет от "спокойной ночи малыши" до "хайль гитлер", но такую модель уже как-то неинтересно исследовать.
Да, если вы хотите отследить предпочтения ака тенденцию в генеративности - вам понадобится большое количество тестов.
Сотни, если не тысячи. Причем довольно осознанно подобранные по условиям.
Конечно, потыкать десяток раз в инпут и на основе этого сделать какие-то выводы - интереснее.
Проблема в том, что называть это "исследованием" можно с весьма большой натяжкой. Хотя нет, нельзя.
Тут надо понимать, что во первых, вы взаимодействуете не с одной моделью, а с N-ным количеством, где output предыдущей передается в следующую.
Плюс, количество слоев, весов и инпутов у каждой из них весьма и весьма значительное.
Во вторых, надо понимать, что "мнения" у нейросети нет и не может быть. У неё есть паттерны вычленения интентов и фичей, есть веса, есть источники для генерации и их веса, есть в конце концов алгоритмы генерации и валидации результатов.
Мнения нет.
Предположим, в 9 из 10 случаев на один и тот же инпут вам выдало одинаковый результат.
Что это значит? Что в источниках для генерации ответа веса расставлены так, что бы отдавать предпочтения одному типу "взглядов"?
Или что на уровне источников есть кэш на один и тот же набор интентов? Или на уровне распределения весов? Или просто в 9 из 10 случаев вы попали со своим инпутом до цикла дообучения, а десятый улетел на отдельную тачку, где новый кусок модели?
Или это просто рандом, потому что возможных аутпутов на такой запрос там не так уж им много?
Дальше всё просто. В зависимости от уровня контролируемости тестов и их количества вы можете определять, где у вас нормальное распределение, а где аномальное.
На выборке из 10 случаев делать это не слишком корректно, даже если вы шестигранный кубик кидаете, не то что тыкаете палочкой в суперкомпьютер.