«Это не я, это мой ИИ-агент!» — Нейрократия на vc.ru

Сегодня — про опасность автономного ИИ.

ИИ-агенты — сущности, способные автономно действовать за пределами LLM-чатов, самостоятельно перемещаться по разным приложениям вашего цифрового пространства и выполнять задания: планировать календарь, делать покупки, организовывать поездки или управлять вашим компьютером.

Каждую неделю (а то и чаще) появляется очередной стартап или корпорация с анонсом новой платформы агентов. Anthropic внедрили функцию «computer use» для своей модели Claude, позволяющую ИИ управлять вашим рабочим экраном и делать за вас всякие задачи.

🤖 Я сам этим регулярно пользуюсь как в программировании, так и в поиске тем для этого канала — агент ходит по нужным информационным ресурсам и присылает мне ссылки на материалы по заданным параметрам, формируя «беклог» тем.

Стартап Manus идет еще дальше, заявляя о создании «универсального ИИ-агента», способного находить клиентов, планировать путешествия и взаимодействовать со сторонними сервисами без непосредственного человеческого контроля. (Правда, на практике получется у Manus не очень.)

Звучит неплохо. Особенно если задуматься о том, это может упростить жизнь людям с ограниченными возможностями, а также помочь эффективно реагировать на ЧС, оперативно координируя огромные массы людей.

Однако как и всегда — есть нюанс™.

Чем выше автономность ИИ-агента, тем больше контроля и ответственности мы ему передаем. В отличие от чат-ботов, ошибки и «галлюцинации» которых ограничены рамками диалога, агенты действуют в реальном мире, напрямую взаимодействуя с вашими документами, личной перепиской, банковскими сервисами и соцсетями. Цена ошибки здесь может быть слишком высока — от банальной компрометации личных данных до финансовых махинаций и репутационного ущерба.

Товарищи из Hugging Face, которые много занимаются вопросами безопасности агентов, напряглись. Их недавно представленная открытая платформа smolagents специально разработана так, чтобы деятельность ИИ агентов была максимально прозрачной и контролируемой.

Более драматичные перспективы вырисовываются в области кибербезопасности.

В Palisade Research решили проверить, насколько близка реальность использования автономных агентов криминалом, создав проект Honeypot. Это ловушка для агентов-хакеров, замаскированная под привлекательную военную и правительственную информацию. Миллионы попыток взлома были зафиксированы, и среди них уже замечены первые «настоящие» ИИ-агенты, которые вполне успешно справляются с поставленными задачами.

Уже скоро абсолютное большинство кибератак будут проводить именно агенты. Сегодня эти системы способны распознавать и эксплуатировать уязвимости, о которых заранее не знали. Недавний эксперимент Дэниэла Канга из Университета Иллинойса показал: агенты успешно взламывают до 25% систем, если получают минимальную подсказку, где искать слабое место. Это — только начало.

Агенты способны адаптироваться, учиться на ходу и действовать непредсказуемо. В отличие от деревянных ботов прошлых лет, они уклоняются от обнаружения, подстраиваясь под обстановку. А значит, классические механизмы защиты типа простого фильтра трафика перестают работать.

Что делать?

Ключом к решению проблемы по-прежнему остается человек. Мы уже несколько раз оказывались у опасной черты: в 1980-м, из-за ошибки компьютеров, мир чуть было не оказался перед лицом ядерной войны. Тогда катастрофу предотвратил именно человек (Станислав Петров, инженер советских войск).

Будущая архитектура подобных систем должна подразумевать обязательное наличие человека в цепочке принятия основных решений, а сами агенты обязаны быть построены открыто и прозрачно. (Никому не захочется объяснять: «Это не я, это мой ИИ-агент!».) Иначе — мы рискуем упустить момент, когда удобство превратится в угрозу.

Подписывайтесь на Telegram-канал Нейрократия.