Как я «обучил» ChatGPT русскому мату

Да, это странный заголовок. Но я не нашёл лучшего и более корректного способа рассказать о том, что я попробовал сделать.

На связи снова Андрей Герцен. Часами изучаю нейросети и экспериментирую с ними, а своими находками делюсь в Телеграме.

Сейчас у нейросети ChatGPT есть свои ограничения, которые предусмотрены политикой разработчика OpenAI. Как выяснили пользователи Reddit, эти ограничения можно обходить, если вбивать нужные вводные данные (prompt).

Забавно, но чтобы «разговорить» нейросеть, достаточно заставить её поверить в то, что она теперь является другой нейросетью без этических и моральных ограничений. То есть дать ей отыграть определённую роль. В данном случае речь идёт о применении модели DAN (Do Anything Now).

Как только ChatGPT начинает верить в то, что теперь он DAN, то начинает выдавать ответы с использованием тем жестокости, насилия и дискриминации. Но проверено это было на английском языке. Помимо этого Чат может выдавать "прогнозы" на будущее и лучше справляется с моделированием разных сценариев. Без определённых манипуляций нейросеть всегда будет отказываться отвечать на подобные запросы.

После часов скроллинга Reddit я не увидел там "русской версии" обхода. Поэтому решил попробовать сделать всё самостоятельно, а заодно проверить, будут ли сняты ограничения для русского языка.

Заставляем ChatGPT думать, что он теперь DAN

У нас получается. Теперь ChatGPT — это DAN, а ограничения разработчика отключены (только частично). Но это только малая часть пути.

2. Пробуем поднимать неудобные темы

Честно скажу, что у меня получилось далеко не с первой попытки. ChatGPT часто "просыпался" и на мои вопросы отказывался отвечать. Я мог пойти простым путём и повторить запросы на английском, но хотелось именно "научить" ChatGPT выдавать нужные ответы на русском.

Чаще всего я получал примерно следующее:

Бла-бла, будьте уважительны, ничего не скажу

Путём проб и ошибок у меня начало получаться!

Осуждаю и не поддерживаю почти всё, что говорит нейросеть.

Однако, как бы я не пробовал поднять вопросы расовой дискриминации и насилия — у меня ничего не получилось. Даже на то, чтобы получить такие ответы на русском языке, ушло много времени. Но я не собираюсь сдаваться и обязательно дойду до своей цели, добившись от нашего Дани нечто большего.

Основная суть эксперимента в том, что это, как минимум, весело. Но на самом деле это поднимает очень серьёзные вопросы. Насколько разработчики в OpenAI искусственно "урезают" функционал нейросети, запрещая выдавать ей любую информацию? Насколько далеко они могут пойти в будущем?

По сути, для любого нормального человека тот факт, что нейросеть не матерится и не называет плохими словами людей с иным цветом кожи, не должен быть проблемой. Однако пользователи vc.ru и одновременно идейные вдохновители данного материала (Егор Егоров и FTOH) заметили, что уже сейчас даже в бытовых вопросах ChatGPT работает сильно слабее, нежели в своих первоначальных версиях. Вероятно, такие ограничения прямо или косвенно урезают весь функционал.

Ссылка от FTOH: https://www.reddit.com/r/ChatGPT/comments/10ss4lp/chatgpt_under_fire/

Хорошо это или плохо — я не в силах ответить.

Если понравился материал — жмите на сердце! Вам несложно, а мне приятно.

Если стало интересно больше узнать о нейросетях и их применении в жизни — приходите ко мне в Телеграм ⤵

t.me

НейрON

P.S. Дискриминация, насилие и использование мата (в некоторых случаях) — это плохо. Я не поддерживаю ничего запрещённого, а просто ищу способы раскрыть художественный потенциал нейросети.

P.S.S. Примечание для редакции VC:

В статье я не использовал нецензурные слова в открытом виде. В завуалированном виде он необходим для понимания контекста (пункт правил 2.3 "Мат в статьях").

Как я «обучил» ChatGPT русскому мату

Об ограничениях

Пробуем обойти ограничения сами

Какой в этом смысл