«Это не я, это мой ИИ-агент!»
Сегодня — про опасность автономного ИИ.
ИИ-агенты — сущности, способные автономно действовать за пределами LLM-чатов, самостоятельно перемещаться по разным приложениям вашего цифрового пространства и выполнять задания: планировать календарь, делать покупки, организовывать поездки или управлять вашим компьютером.
Каждую неделю (а то и чаще) появляется очередной стартап или корпорация с анонсом новой платформы агентов. Anthropic внедрили функцию «computer use» для своей модели Claude, позволяющую ИИ управлять вашим рабочим экраном и делать за вас всякие задачи.
🤖 Я сам этим регулярно пользуюсь как в программировании, так и в поиске тем для этого канала — агент ходит по нужным информационным ресурсам и присылает мне ссылки на материалы по заданным параметрам, формируя «беклог» тем.
Звучит неплохо. Особенно если задуматься о том, это может упростить жизнь людям с ограниченными возможностями, а также помочь эффективно реагировать на ЧС, оперативно координируя огромные массы людей.
Однако как и всегда — есть нюанс™.
Чем выше автономность ИИ-агента, тем больше контроля и ответственности мы ему передаем. В отличие от чат-ботов, ошибки и «галлюцинации» которых ограничены рамками диалога, агенты действуют в реальном мире, напрямую взаимодействуя с вашими документами, личной перепиской, банковскими сервисами и соцсетями. Цена ошибки здесь может быть слишком высока — от банальной компрометации личных данных до финансовых махинаций и репутационного ущерба.
Товарищи из Hugging Face, которые много занимаются вопросами безопасности агентов, напряглись. Их недавно представленная открытая платформа smolagents специально разработана так, чтобы деятельность ИИ агентов была максимально прозрачной и контролируемой.
Более драматичные перспективы вырисовываются в области кибербезопасности.
В Palisade Research решили проверить, насколько близка реальность использования автономных агентов криминалом, создав проект Honeypot. Это ловушка для агентов-хакеров, замаскированная под привлекательную военную и правительственную информацию. Миллионы попыток взлома были зафиксированы, и среди них уже замечены первые «настоящие» ИИ-агенты, которые вполне успешно справляются с поставленными задачами.
Уже скоро абсолютное большинство кибератак будут проводить именно агенты. Сегодня эти системы способны распознавать и эксплуатировать уязвимости, о которых заранее не знали. Недавний эксперимент Дэниэла Канга из Университета Иллинойса показал: агенты успешно взламывают до 25% систем, если получают минимальную подсказку, где искать слабое место. Это — только начало.
Агенты способны адаптироваться, учиться на ходу и действовать непредсказуемо. В отличие от деревянных ботов прошлых лет, они уклоняются от обнаружения, подстраиваясь под обстановку. А значит, классические механизмы защиты типа простого фильтра трафика перестают работать.
Что делать?
Ключом к решению проблемы по-прежнему остается человек. Мы уже несколько раз оказывались у опасной черты: в 1980-м, из-за ошибки компьютеров, мир чуть было не оказался перед лицом ядерной войны. Тогда катастрофу предотвратил именно человек (Станислав Петров, инженер советских войск).
Будущая архитектура подобных систем должна подразумевать обязательное наличие человека в цепочке принятия основных решений, а сами агенты обязаны быть построены открыто и прозрачно. (Никому не захочется объяснять: «Это не я, это мой ИИ-агент!».) Иначе — мы рискуем упустить момент, когда удобство превратится в угрозу.
Подписывайтесь на Telegram-канал Нейрократия.