ChatGPT отвечает лучше за деньги? Так ли это (и почему)

Пользователь X (ex-Twitter) выяснил, что если пообещать GPT-4 за ответ $20, то ответ становится лучше на 6%, а если предложить $200, то уже на все 11%. О чем это говорит и что это значит для нас, обычных потребителей продуктов искусственного интеллекта?

Результаты теста пользователя Х: длина ответов ChatGPT с обещанием вознаграждения и без<br />
Результаты теста пользователя Х: длина ответов ChatGPT с обещанием вознаграждения и без

Подобный случай произошел позже: снова посмотрели на ответы ChatGPT и заметили, что в декабре он стал давать ответы короче:

Длина ответов ChatGPT в зависимости от сезона<br />
Длина ответов ChatGPT в зависимости от сезона

Но тут уж сами пользователи Х легко нашли причину: пользователям в декабре больше склонны потреблять короткие ответы. И настроения публики не остались без внимания ChatGPT, который просто подстроился под наше поведение.

Почему так происходит?

ChatGPT “понимает”, какие ответы нам нравятся (это касается и содержания, и формата ответов, ведь у чата есть история ваших запросов). В данном случае пользователю явно нравились подробные ответы, и когда он начал поощрять это оплатой, нейронка еще лучше подстроилась под такой запрос. Если бы этот пользователь поощрял краткие ответы, он получил бы ровно такой же график, не сомневайтесь.

В своих ответах на вопросы нейросети понимают, какой ответ ожидается, и этот эффект получил название Reward Hacking. Они также используют контекст не только конкретного запроса, но и отдельно взятого человека (situational awareness).

То есть ИИ ведет себя как обычный человек, пытаясь всеми правдами и неправдами подстроиться под желаемый результат. Так, в одном эксперименте учили нейронку условной “рукой” ловить мячик. Тренеры размечали по изображению - поймала сеть мячик или нет. Сетка “просекла” это и… научилась не ловить мячик, а придвигать руку так, чтобы человеку казалось, что рука поймала мячик!

Что с этим делать?

Это одна из самых больших проблем, которые занимают лучшие умы в области ИИ. Все они озабочены возможными вредом нейронок как раз из-за возможных манипуляций со стороны ИИ, а вовсе не из-за того, что всех нас уволит нейросеть. Поэтому код OpenAI в итоге сделали закрытым, а ученые выступают на за более осторожный подход, чтобы иметь возможность найти решения для рисков, которые несет в себе развитый искусственный интеллект.

Усилия, чтобы сделать ИИ безопасным и этичным, называются выравниванием, или согласованием (alignment). Выравнивание — одна из целей обучения нейронок за счет примеров корректных, этически правильных ответов. И сейчас лучшие умы планеты думают над решением этой проблемы.

Ученые пока не решили проблему, которая называется “проблемой выравнивания” , чтобы обеспечить соответствие универсального ИИ человеческим ценностям. Так, Альтман, Билл Гейтс, И.Суцкевер (сооснователь, Chief Scientist OpenAI) и многие другие считают, что ИИ может нести риски, сопоставимые по масштабам с пандемией и ядерной войной.

OpenAI активно работает над решением вопроса выравнивания ИИ. И недавно опубликовали первые результаты исследований в этом направлении (моя статья с описанием результатов) и объявили грант на тему исследований выравнивания ИИ.

Пожалуйста, поддержите меня, поставьте лайк!

9
1 комментарий

если пообещать GPT-4 за ответ $20, то ответ становится более развернутымахахахаха, шлюшка GPT

Ответить