{"id":14287,"url":"\/distributions\/14287\/click?bit=1&hash=1d1b6427c21936742162fc18778388fc58ebf8e17517414e1bfb1d3edd9b94c0","hash":"1d1b6427c21936742162fc18778388fc58ebf8e17517414e1bfb1d3edd9b94c0","title":"\u0412\u044b\u0440\u0430\u0441\u0442\u0438 \u0438\u0437 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u0430 \u0434\u043e \u0440\u0443\u043a\u043e\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u044f \u0437\u0430 \u0433\u043e\u0434","buttonText":"","imageUuid":""}

ChatGPT отвечает лучше за деньги? Так ли это (и почему)

Пользователь X (ex-Twitter) выяснил, что если пообещать GPT-4 за ответ $20, то ответ становится лучше на 6%, а если предложить $200, то уже на все 11%. О чем это говорит и что это значит для нас, обычных потребителей продуктов искусственного интеллекта?

Результаты теста пользователя Х: длина ответов ChatGPT с обещанием вознаграждения и без

Подобный случай произошел позже: снова посмотрели на ответы ChatGPT и заметили, что в декабре он стал давать ответы короче:

Длина ответов ChatGPT в зависимости от сезона

Но тут уж сами пользователи Х легко нашли причину: пользователям в декабре больше склонны потреблять короткие ответы. И настроения публики не остались без внимания ChatGPT, который просто подстроился под наше поведение.

Почему так происходит?

ChatGPT “понимает”, какие ответы нам нравятся (это касается и содержания, и формата ответов, ведь у чата есть история ваших запросов). В данном случае пользователю явно нравились подробные ответы, и когда он начал поощрять это оплатой, нейронка еще лучше подстроилась под такой запрос. Если бы этот пользователь поощрял краткие ответы, он получил бы ровно такой же график, не сомневайтесь.

В своих ответах на вопросы нейросети понимают, какой ответ ожидается, и этот эффект получил название Reward Hacking. Они также используют контекст не только конкретного запроса, но и отдельно взятого человека (situational awareness).

То есть ИИ ведет себя как обычный человек, пытаясь всеми правдами и неправдами подстроиться под желаемый результат. Так, в одном эксперименте учили нейронку условной “рукой” ловить мячик. Тренеры размечали по изображению - поймала сеть мячик или нет. Сетка “просекла” это и… научилась не ловить мячик, а придвигать руку так, чтобы человеку казалось, что рука поймала мячик!

Что с этим делать?

Это одна из самых больших проблем, которые занимают лучшие умы в области ИИ. Все они озабочены возможными вредом нейронок как раз из-за возможных манипуляций со стороны ИИ, а вовсе не из-за того, что всех нас уволит нейросеть. Поэтому код OpenAI в итоге сделали закрытым, а ученые выступают на за более осторожный подход, чтобы иметь возможность найти решения для рисков, которые несет в себе развитый искусственный интеллект.

Усилия, чтобы сделать ИИ безопасным и этичным, называются выравниванием, или согласованием (alignment). Выравнивание — одна из целей обучения нейронок за счет примеров корректных, этически правильных ответов. И сейчас лучшие умы планеты думают над решением этой проблемы.

Ученые пока не решили проблему, которая называется “проблемой выравнивания” , чтобы обеспечить соответствие универсального ИИ человеческим ценностям. Так, Альтман, Билл Гейтс, И.Суцкевер (сооснователь, Chief Scientist OpenAI) и многие другие считают, что ИИ может нести риски, сопоставимые по масштабам с пандемией и ядерной войной.

OpenAI активно работает над решением вопроса выравнивания ИИ. И недавно опубликовали первые результаты исследований в этом направлении (моя статья с описанием результатов) и объявили грант на тему исследований выравнивания ИИ.

Пожалуйста, поддержите меня, поставьте лайк!

0
1 комментарий
кринге
если пообещать GPT-4 за ответ $20, то ответ становится более развернутым

ахахахаха, шлюшка GPT

Ответить
Развернуть ветку
-2 комментариев
Раскрывать всегда