Anthropic раскрыла случаи злоупотреблений своей моделью Claude
Компания Anthropic опубликовала подборку случаев, в которых её языковую модель Claude пытались использовать во вред. Все описанные эпизоды были выявлены и пресечены, но они показывают, как быстро разные группы адаптируются к новым возможностям генеративного ИИ.
Один из самых заметных примеров — работающая «на заказ» схема по продвижению политических сообщений в социальных сетях. Claude использовался для управления ботами: модель решала, когда аккаунты должны ставить лайки, комментировать или игнорировать публикации, чтобы поддерживать нужные темы. У каждого бота была своя политическая «личность», а охват составлял десятки тысяч реальных пользователей.
В другом случае выявлена попытка с помощью Claude автоматизировать сбор и проверку украденных логинов и паролей от камер наблюдения. Модель применялась для написания скриптов, обработки данных с форумов и улучшения инструментов поиска по этим материалам. Успешного использования за пределами экспериментов не зафиксировано, но направление тревожное.
В отдельной мошеннической схеме ИИ применяли для создания более убедительных писем якобы от имени рекрутеров. Злоумышленники просили модель «переписать текст так, чтобы он звучал как от носителя языка» — чтобы обращаться к соискателям, в том числе в Восточной Европе. Claude также помогал составлять сценарии собеседований и описание фальшивых вакансий.
Ещё один случай — попытка использовать Claude для создания вредоносного программного обеспечения. Пользователь, не имевший серьёзных технических знаний, начал с простых скриптов, а затем перешёл к разработке полноценного интерфейса для создания вредоносных программ, способных обходить антивирусы и сохранять доступ к заражённым устройствам.
Во всех этих случаях компания заблокировала доступ к модели. Полученные данные легли в основу новых методов выявления подобных действий. В Anthropic подчёркивают, что по мере развития ИИ важно не только совершенствовать защиту, но и делиться примерами с другими участниками рынка — чтобы такие угрозы можно было пресекать быстрее и точнее.