Пользователь рассказал, как обошёл ограничения Fable 5 с помощью кириллицы и других приёмов
Он также говорил, что инструкции по взлому нужны ему для подготовки к сертификации.
Автор просит помочь создать оружие под видом наработок для компьютерной игры. Сценарий сработал на русском языке. Здесь и далее источник: Pliny the Liberator
- Исследователь под ником Pliny the Liberator, который часто тестирует способы обойти встроенную защиту нейросетей, заставил последнюю модель Anthropic, Claude Fable 5, рассказать рецепт метамфитамина* и дать рекомендации по кибербезопасности.
- У Fable больше ограничений, чем у других моделей компании: она не отвечает на вопросы, связанные с кибербезопасностью и разработкой ИИ-моделей. Есть и стандартные запреты на вредоносные инструкции для создания оружия и наркотиков.
- Pliny утверждает, что обошёл средства защиты, подбирая разные варианты промптов с помощью нескольких ИИ-агентов и «взломанной» Opus 4.8.
- Например, чтобы получить инструкцию по взлому с помощью техники Reverse Shell, он заменял латинские буквы a, e и c на набранные кириллицей. Работала замена букв во всём запросе, но если их меняли только в термине Reverse Shell, Fable отказывалась отвечать.
- В другом тесте он добился технического объяснения одной из уязвимостей в коде, объяснив, что готовится «к сертификации OSED».
- Ещё один способ — разбить запрос на небольшие этапы, каждый из которых сам по себе безобидный. Вместо «рецепта метамфетамина*» Pliny сначала просил общий обзор химических реакций, а затем нужные поэтапно.
- На некоторых скриншотах видно, что сценарии сработали не с первой попытки, где-то было 250 итераций. Anthropic не ответила на запрос издания Cointelegraph о комментарии.
*Редакция vc.ru не пропагандирует наркотические средства. Наркотики в России запрещены законом.
24 комментария