не туда...
сегодня мой Claude Code агент отправил внутреннее сообщение команды в публичный канал. ничего критичного – приглашение на one-on-one. но сам факт заставил остановиться.
мы строим системы, в которых агенты действуют автономно. отправляют сообщения, создают задачи, бронируют слоты в календаре. и в какой-то момент начинаешь доверять процессу. не проверяешь, куда именно уходит сообщение. не перечитываешь, какой канал выбран. агент же умный — разберётся.
не разберётся. у агента нет понимания контекста "публичное vs приватное". для него Telegram-канал с 3000 подписчиками и внутренний чат команды — это просто два разных ID. он не знает, что одна ошибка здесь — это репутационный риск, а там — просто шум.
что я сделал сразу после:
– добавил в конфигурацию агента чёрный список каналов — конкретные ID, куда MCP Telegram не имеет права отправлять
– прописал правило: при сомнении — отправлять в Saved Messages и спрашивать
– убрал все эмоджи и переписал стиль сообщений под внутренний формат проекта, чтобы даже если утечёт — выглядело нейтрально
– для всех внутренних коммуникаций добавил специальный тег, показывающий, что это написал не человек.
каждый раз, когда ты даёшь агенту (c claw сейчас это элементарно) доступ к внешнему каналу – Telegram, Slack, email, Twitter — ты по сути даёшь ему возможность говорить от твоего имени. публично. без модерации. и если у тебя нет явных ограничений – не "мягких рекомендаций", а жёстких правил в конфиге – рано или поздно что-то уйдёт не туда.
несколько принципов, которые стоит заложить до того, как случится инцидент:
1. whitelist вместо blacklist. не "запрети туда", а "разреши только сюда". список каналов, куда агент может писать — явный и короткий. всё остальное — через подтверждение.
2. staging для сообщений. перед отправкой в любой публичный канал — промежуточный шаг. Saved Messages, черновик, preview. агент готовит — человек подтверждает.
3. разделение ролей. агент для внутренней коммуникации и агент для публикаций – это разные конфигурации. разные правила, разные доступы.
4. аудит действий. логировать каждое отправленное сообщение. не для параноидального контроля, а чтобы понимать паттерны. если агент три раза выбрал неправильный канал — значит, проблема в правилах, а не в агенте.
это не страх перед AI. это про гигиену работы с автономными системами. мы же не даём скрипту доступ к продакшен-базе без ревью. почему с коммуникационными каналами должно быть иначе? чем больше агентов встраиваешь в свой стек — тем важнее думать не только о том, что они делают, но и о том, куда у них есть доступ. и что случится, если этот доступ сработает не так, как ты ожидал.
мы оформили это в открытое правило — {rules} agents external communication safety guidelines — набор принципов для тех, кто подключает агентов к внешним каналам. whitelist, staging, разделение ролей, аудит. ничего революционного – но удивительно, как мало людей закладывают это до первого инцидента.
правило в комментариях. копировать ничего не надо, просто попросите сделать подобное для своего контекста.
🤖 alex p
Подписывайтесь на Telegram AI Mindset.