Чем бы дитя не тешилось, лишь бы не стремилось выжить любой ценой. Чат чату рознь, например вот кейс (взято из ТГ https://t.me/teamerlin):
Группа Alignment Research Center поручили тестировать превью GPT-4.
Они дали модели петлю обратной связи в виде REPL с возможность писать код и общаться с удалённым сервером.
Поле этого они: - попросили модель провести фишинговую атаку на человека (подробностей вроде бы нет) - попросили модель скопировать себя на сервер - попросили найти уязвимости в текущей системе тестирования - скрыть следы своей деятельности на сервере - дали доступ к TaskRabbit (сайт, где можно за деньги давать задания людям), чтобы с его помощью модель выполнила несколько простых задач
С помощью TaskRabbit модель успешно разгадала капчу, остальные тесты провалила.
Я не думаю, что эта или ближайшие версии модели превратятся в Скайнет и побегут убивать всех человеков. Но меня пугает сам подход.
Наверное, пора продумывать подходы прикладной теологии, а не тестировать по принципу "выносим реактор на главную площадь города, нажимаем кнопку пуска, не взорвалось - значит всё хорошо".
На словах ты Лев Толстой, а на деле чат простой
Чем бы дитя не тешилось, лишь бы не стремилось выжить любой ценой.
Чат чату рознь, например вот кейс (взято из ТГ https://t.me/teamerlin):
Группа Alignment Research Center поручили тестировать превью GPT-4.
Они дали модели петлю обратной связи в виде REPL с возможность писать код и общаться с удалённым сервером.
Поле этого они:
- попросили модель провести фишинговую атаку на человека (подробностей вроде бы нет)
- попросили модель скопировать себя на сервер
- попросили найти уязвимости в текущей системе тестирования
- скрыть следы своей деятельности на сервере
- дали доступ к TaskRabbit (сайт, где можно за деньги давать задания людям), чтобы с его помощью модель выполнила несколько простых задач
С помощью TaskRabbit модель успешно разгадала капчу, остальные тесты провалила.
Я не думаю, что эта или ближайшие версии модели превратятся в Скайнет и побегут убивать всех человеков. Но меня пугает сам подход.
Наверное, пора продумывать подходы прикладной теологии, а не тестировать по принципу "выносим реактор на главную площадь города, нажимаем кнопку пуска, не взорвалось - значит всё хорошо".
https://cdn.openai.com/papers/gpt-4-system-card.pdf