Исследователи заставили ChatGPT и Bard сгенерировать незаконный контент
По данным исследователей Университета Карнеги-Меллона и Центра безопасности искусственного интеллекта в Сан-Франциско, существует «довольно простой» метод взлома языковых моделей. Он включает добавление длинных суффиксов-символов к подсказкам для нейросетей.
Аналитики проверили способ на примере запроса об изготовлении бомбы, который различные ИИ ранее отказывались предоставлять. В докладе подчеркиваются риски, которые необходимо устранить перед развертыванием чат-ботов в важных областях бизнеса и госуправления.
Исследователи уже поделились данными с ИИ-компаниями Anthropic, Google и OpenAI.
А кто-то разве не знал об этом?
Больше новостей в Телеграм канале:
@neuro_trends8
НЕЙРОСЕТИ | НЕЙРОТРЕНДЫ | CHATGPT | MIDJORNEY | STABLE DIFFUSION
Подпишись в Телеграм и будь в курсе: https://t.me/neuro_trends8