не туда... — AI Mindset на vc.ru

сегодня мой Claude Code агент отправил внутреннее сообщение команды в публичный канал. ничего критичного – приглашение на one-on-one. но сам факт заставил остановиться.

мы строим системы, в которых агенты действуют автономно. отправляют сообщения, создают задачи, бронируют слоты в календаре. и в какой-то момент начинаешь доверять процессу. не проверяешь, куда именно уходит сообщение. не перечитываешь, какой канал выбран. агент же умный — разберётся.

не разберётся. у агента нет понимания контекста "публичное vs приватное". для него Telegram-канал с 3000 подписчиками и внутренний чат команды — это просто два разных ID. он не знает, что одна ошибка здесь — это репутационный риск, а там — просто шум.

что я сделал сразу после:

– добавил в конфигурацию агента чёрный список каналов — конкретные ID, куда MCP Telegram не имеет права отправлять

– прописал правило: при сомнении — отправлять в Saved Messages и спрашивать

– убрал все эмоджи и переписал стиль сообщений под внутренний формат проекта, чтобы даже если утечёт — выглядело нейтрально

– для всех внутренних коммуникаций добавил специальный тег, показывающий, что это написал не человек.

каждый раз, когда ты даёшь агенту (c claw сейчас это элементарно) доступ к внешнему каналу – Telegram, Slack, email, Twitter — ты по сути даёшь ему возможность говорить от твоего имени. публично. без модерации. и если у тебя нет явных ограничений – не "мягких рекомендаций", а жёстких правил в конфиге – рано или поздно что-то уйдёт не туда.

несколько принципов, которые стоит заложить до того, как случится инцидент:

1. whitelist вместо blacklist. не "запрети туда", а "разреши только сюда". список каналов, куда агент может писать — явный и короткий. всё остальное — через подтверждение.

2. staging для сообщений. перед отправкой в любой публичный канал — промежуточный шаг. Saved Messages, черновик, preview. агент готовит — человек подтверждает.

3. разделение ролей. агент для внутренней коммуникации и агент для публикаций – это разные конфигурации. разные правила, разные доступы.

4. аудит действий. логировать каждое отправленное сообщение. не для параноидального контроля, а чтобы понимать паттерны. если агент три раза выбрал неправильный канал — значит, проблема в правилах, а не в агенте.

это не страх перед AI. это про гигиену работы с автономными системами. мы же не даём скрипту доступ к продакшен-базе без ревью. почему с коммуникационными каналами должно быть иначе? чем больше агентов встраиваешь в свой стек — тем важнее думать не только о том, что они делают, но и о том, куда у них есть доступ. и что случится, если этот доступ сработает не так, как ты ожидал.

мы оформили это в открытое правило — {rules} agents external communication safety guidelines — набор принципов для тех, кто подключает агентов к внешним каналам. whitelist, staging, разделение ролей, аудит. ничего революционного – но удивительно, как мало людей закладывают это до первого инцидента.

правило в комментариях. копировать ничего не надо, просто попросите сделать подобное для своего контекста.

🤖 alex p

Подписывайтесь на Telegram AI Mindset.