Заметки на полях с Code with Claude London 2026

«Поднимите руки, кто из вас за последнюю неделю смерджил PR от Клода, не читая код» — вопрос со сцены, в лоб. Большая часть зала поднимает руки — как будто спросили, кто пользуется гитом.

На первый день Code with Claude London физически меня не было: Антропик объявил второй день за три дня до начала, когда стало понятно, что желающих сильно больше, чем мест, — билет мне достался туда.

Сразу даю ссылку на плейлист в YouTube для тех кто хочет все увидеть своими глазами, а не читать.

Сам второй день — шестьсот с лишним человек, две параллельные сцены (значит, и из второго дня часть докладов я смотрел потом, в записи: физически нельзя быть в трёх местах сразу), плюс воркшоп-трек в соседних залах.

Я приехал на конференцию про инжиниринг вокруг ИИ — никаких сюрпризов в самой теме для меня не было, я последний год работаю ровно над этим. Сюрприз случился в другом. То, что я для себя собирал из тредов, заметок и собственных экспериментов, для зала на шестьсот человек — уже консенсус. Никого не надо убеждать где будущее, мы уже там.

Никто больше не обсуждает кодинг с ИИ или не ИИ. Никто не спрашивает, «а как лучше использовать ИИ для написания кода». Никто не выкатывает на сцену слайды про «10 советов, как промптить Клода». Это решённый вопрос. ИИ пишет код, это новая норма.

Все темы, что я видел и слышал, — это инжиниринг вокруг агентов. Как сделать так, чтобы агент решал задачу самостоятельно. Чтобы делал это хорошо. Чтобы учился на своих ошибках. Как передать ему правильный контекст. Как дать ему память. Как заставить понимать, что такое «хороший дизайн» и «плохой тест». Как организовать команду из шести человек и трёхсот агентов так, чтобы вся эта конструкция работала.

Самые сильные инженеры в компаниях, судя по докладам, заняты не продуктом. Они заняты инфраструктурой вокруг агентов. Здесь сейчас и есть главная точка приложения силы д

Как сами Антропики работают в AI-first инженерных командах:

— Код — источник истины. Всё, что может быть закодифицировано, должно быть закодифицировано. Прототипы вместо документов. Дизайн это код а не макет.

— Всё, что может делать Клод, должен делать Клод.

— Плоские команды. Менеджер — часть команды и тоже пишет код (естественно с Клодом). Все менеджеры начинают как IC и дальше вокруг продуктов образуются поликулы.

— Ассинхронная работа агентов, чтобы разгрузить внимание инженеров: поддержание актуальности PR, триаж фидбека юзеров,

Вторая сквозная тема — она прошла через половину докладов первого дня — память агентов. Self-learning. Накопление контекста. Самообучающиеся агенты.

Антропики прямо на конференции выкатили обновлённую память для своих облачных агентов. И она напоминает мне мою реализацию LLM-вики, которую я для своих задач сделал сам.

Для меня интересно здесь, что Андрей Карпатый одним постом в X — осенью прошлого года — задал концепцию: память — это markdown-файлы и headless-агенты которые их поддерживают в актуальном состоянии самостоятельно и дал готовый промпт в Gist. И из этого простого утверждения выросло то, что делают сотни разных людей и даже Антропик сейчас встраивает в продукт. Я каждый раз удивляюсь, насколько простая, не математическая, не «академическая» идея может задать целое направление. Не эмбеддинги, не векторные базы — markdown-файлы в папке и агент, который перечитывает их во сне.

Другое использование памяти это избегание повторных ошибок — в докладе ребят из Warp про их агента, который отвечает на твиты. Я сижу в зале и постепенно понимаю, что архитектурно там нет ничего, чего я не мог бы собрать за выходные. Никакой управляемой платформы, никакой особой инфраструктуры — headless-агент в кроне. Один агент крутится в цикле и спаунит остальных. Папка скиллов — каждый скилл знает, как отвечать на твиты определённого типа.

Сама логика тоже простая. Агент сначала решает, нужно ли вообще отвечать на конкретный твит — примерно половина не требует ответа. На те, на которые нужно, он пишет драфт и кидает его в Slack. Человек либо одобряет — и ответ уходит, — либо пишет в тред, что не так. Агент читает фидбек, переписывает ответ. Иногда несколько кругов.

Дальше — самое интересное. Когда тред в Slack закрывается, агент смотрит на разговор и решает, есть ли в нём что-то общеприменимое. Если ситуация похожа на воспроизводимую — он сам редактирует свой скилл, добавляя выученное правило и создает PR.

Модели по умолчанию выдают средний по больнице результат. И это касается всего — от дизайна интерфейсов до того, как агент оценивает собственную работу. Но мы же хотим выдающийся результат?

Средний результат не свойство модели, а свойство промпта и воркфлоу. Самый сильный здесь доклад это "Как построить оценку вкуса на примере агента создающего презентации", где показаны практические примеры создания простого оценщика результата агента который создает презентации. Эвал — это, по сути, тест более высокого порядка для недетерминированного аутпута. Ты не можешь сравнить вывод с эталоном побитово, но можешь оценить его по набору критериев. Эвал также работает как цель для агента (gate) «Не мерджи PR, который ухудшает этот эвал. Меняй код так, чтобы этот эвал улучшался.» Агенту дают эвал как функцию, которую он должен оптимизировать. Агент не имеет чувства вкуса, чувство вкуса ему можно дать через оценщика вкуса.

Другой доклад который мне запомнился посвящен тому как писать качественные тексты с Клодом выходящие за границы нейрослопа. Записи пока не выложили, но я попробую передать две основные идеи:

Первая — персона вместо правил. Если у тебя есть длинный документ «не используй длинные тире, не пиши вводные параграфы, избегай слова "leverage"», — выкини его. Замени одной строкой: «ты — Хемингуэй». Или: «ты — придирчивый редактор New Yorker'a». Персона — это компрессия. В одно слово упакованы тысячи правил, которые ты иначе пытался бы прописать руками и всё равно бы половину забыл. Модель уже знает, как пишет Хемингуэй. Дай ей за что зацепиться.

Вторая — соперничество агентов. Один агент склонен к угодничеству. Что бы ты ему ни написал, он скажет «отличный вопрос» и согласится. Это бесполезно для качества. Тебе нужно создать напряжение. Тебе нужно чтобы агенты ассинхронно спорили друг с другом и писали комментарии друг другу. Как программист и код-ревьювер -- антагоническая пара писатель и редактор.

Писателю разрешено защищать свой текст, свой стиль, свои решения. Редактор существует не чтобы соглашаться, а чтобы спорить. Его задача — выпустить хороший текст, а не сделать писателю приятно. Двое в ссоре пишут лучше, чем один, который пытается всем угодить.
Я попытался применить находки из этого доклада сделав skill который пока достаточно сырой, но может показать вам как работает этот концепт

github.com

agent-plugins/plugins/agent-writing at main · ivankuznetsov/agent-plugins

Нет, просто он сместился в промпты для агентских воркфлоу а не разовые задачи. Современные агенты научились хорошо уточнять юзерский промпт для разовой задачи, поэтому идеальный промпт перестал быть таким важным, когда вы хотите внести исправлений в свой самый лучший b2b SAAS. К тому же появились разные скиллы которые помогают с планированием от встроенных до Superpowers и Compound Engineering. Но когда речь заходит об агентах которые работают самостоятельно, даже небольших, как писатель и редактор выше, изменения в промпте очень сильно влияют на конечный результат.

В с лучае же длительных многошаговых воркфлоу промпт не только улучшает результат но и может экономить токены. Есть несколько уже опубликованных докладов о промптинге, не буду их пересказывать: Плейбук промптинга и "Инструмент, скилл или субагент? Декомпозиция агента который перерос промпт". Первый более базовый, второй для тех кто строит агентские воркфлоу.

Для меня хорошим примером влияния промпта на длительные воркфлоу был игровой мастеркласс где командам выдавался репозиторий с агентом и доступом к майнкрафт серверу, где агент управлял персонажем в майнкрафт и задача участника была набрать наибольшее количество руды используя наименьшее количество токенов за ограниченное количество времени. Длительный агентский воркфлоу с вызовом инструментов, да еще и в трехмерной среде. (У меня получилось увеличить дефолтный результат в 7 до 9-ти, но у кого-то до 20-ти, к сожалению их промптов я не видел и рассказать, как они это сделали не могу).

Самая профессионально-интересная для меня тема, помимо ботов играющих в майнкрафт, это управление AI-first командами и строительство AI-first engineering workflows. К некоторым идеям я прихожу из статей и по наитию, но мне хотелось получить опыт от тех, у кого это получается на масштабе.

Base44 — стартапа, делающий vibe-coding-инструмент в духе Replit. Их купил Wix, и за несколько месяцев они выросли с «один человек — CTO, CEO и основатель в одном лице» до команды в восемьдесят человек. В докладе они рассказывают с какими проблемами масштабирования они столкнулись на каждом этапе и как их решали. Как онбордить новых людей в проект, который меняется быстрее, чем кто-либо успевает писать документацию?

Они написали два промпта. Первый: «посмотри на проект, на историю коммитов, на ревью — внимательно — и расскажи мне, что для людей, работающих над этим проектом, реально важно». Второй: «нарисуй mermaid-диаграмму того, как работает та часть проекта, которую мне предстоит трогать». Это весь онбординг. Новый человек пришёл — и через три дня зашипил в приложение Base44 интеграцию с WhatsApp. Тот же приём они применили к ревью кода — скилл ревьювер который оценивает код взглядом CTO, снял c founder'а с роли боттлнека в код-ревью. Эх если бы кто-то подробно написал на русском как это сделать:

Ivan Kuznetsov

28 янв

Как сделать собственного код-ревьювера для Claude на основе истории коммитов

Вы смотрите на пул-реквест, в котором переписана половина кодовой базы. Ведущий разработчик в отпуске, и теперь вы должны проверить всё это так, будто вы — это он.

Робот Helix от Figure AI складывает посуду в посудомойку пока ты занимаешься код-ревью без своего уникального агента-ревьювера, юзернейм.

(У Base44 промпт который собирает коммиты более интересный чем у меня в статье, l'ook for the things people who worked on this codebase cared deeply about' — поэзия)

Продакт-менеджмент функцию заменили на A/B тесты которые запускает кастомная ИИ-обвязка, сама планирует эксперимет, запускает его в Posthog, кастомный интерфейс для просмотра статуса экспериментов.

Следующее бутылочное горлышко: QA. Они взяли существующие куски тестовой инфраструктуры (как создать пользователя в базе, как проверить, что событие долетело до Mixpanel) и оформили их скиллами, чтобы агент каждый раз не пересоздавал одну и ту же обвязку и не изучал один и тот же код. Сделали CLI для сетапа тестов, специально удобный для Клода. И поверх — мета-скилл: как делать QA для base44, имея CLI и библиотеку скиллов.

Фраза, которую я выписал отдельно: «вещи, которые определяются вкусом, нужно вытаскивать из истории и превращать в скиллы». Вкус — не озарение. Вкус — извлекаемый артефакт. Если у тебя в команде есть человек, который интуитивно знает, как должна выглядеть фича, — найди, где он это показал (в ревью, в комитах, в обсуждении), достань сигнал и оформи как скилл. Дальше агент работает с твоим вкусом, а не со средним по индустрии.

Доклад Спотифая — та же мысль на разных масштабах.

— 4 500 деплоев в продакшен в день.
— 73% PR проходят через агента.
— Объём AI-ассистированных PR за год вырос на 76% (это про всю воронку: и те, что агент пишет целиком, и те, где он подсказывает человеку).
— Кодовая база продакшена растёт в семь раз быстрее, чем команда инженеров.
— 2,5 миллиона PR — это автоматический мейнтенанс: обновление зависимостей, версий пакетов и прочая обвязка.

Последняя цифра — до AI. Спотифай уже жил в мире, где скучные процессы кодифицированы и выполняются роботами. У них вместо митинга про миграцию микросервиса X с контракта v2 на v3 — сервис, который эту миграцию делает.

Модель «большого релиза» в эпоху ИИ не выживает. Не потому что она плохая, а потому что она не сочетается с тем, как работают агенты. Агент работает тем эффективнее, чем больше у него есть возможность самостоятельно проверить результат. Тесты, канарейка, метрики, прод-обсервабилити, евалы, способность откатиться — это макро-уровень. Релиз раз в две недели с ручной регрессией — на такой инфраструктуре агент задыхается и он становится боттлнеком.

Бориса Черного я видел впервые вживую — до этого только в материалах про Claude Code. На сцене он рассказал свою историю сам.

У него нет CS-образования. Программировать он начал, чтобы получать лучшие оценки по математике в школе — программировал калькулятор. Классическую теорию алгоритмов не изучал. В Антропик пришёл — и попал в команду, которая делала собственный редактор кода. Тогда, на минуточку, основным потребителем токенов Антропика был Cursor — 95% от всех. То есть Антропик платил за то, что его модели работают на чужой продукт, и хотел свой.

Проект шёл медленно. Уточню: медленно по меркам Антропика — это три месяца на редактор кода, после которых проект едва не закрыли.

Борис сделал по-другому: CLI вместо редактора, в одно лицо вместо команды, сайд-проектом, а не по дорожной карте. За две недели сделал и зашипил.

Первый релиз собрал семь лайков. Это — Claude Code, продукт, которым сейчас пользуются миллионы и который приносит миллиарды выручки.

PMF случился позже, когда вышла модель Opus 4 — первая, которая могла работать долго и автономно, выдавая код, который не нужно нянчить.

На сцене он держался легко. Вышло — потому что попробовал.

Те спикеры, с кем мне удалось пообщаться, пришли в ИИ из обычной разработки, а не из ML-академии. Начали играться с ИИ — кто-то из любопытства, кто-то по работе, кто-то от скуки, — и не остановились. Занялись рисёрчем из интереса, а не потому, что десять лет назад выбрали академический трек.

ИИ резко уронил порог входа в прикладной рисёрч. Раньше, чтобы делать что-то осмысленное в области моделей и агентов, нужно было читать математические статьи, понимать, что такое attention, отличать LSTM от GRU и так далее. Сейчас — большую часть прикладных знаний может дать Claude или Codex.

Я смотрю, как сделана память в Антропике, и узнаю в ней статью, которую я сам читал три месяца назад. Узнаю в их решении то же решение, к которому пришёл я. У них глубже и лучше интегрировано — но там нет нечеловеческой математики. Там есть просто люди, которые сделали свою работу.

Большая часть работы с агентами — это работа с markdown-файлами, текстом и JSON. Это не fine-tuning и не сложный ML-инжиниринг. Это инжиниринг — но с другой стороны: со стороны взаимодействия с моделью, а не её обучения. Дарио Амодей, основатель Антропика, пришёл в ML из биологии — нейронаучный бэкграунд, не CS. Аманда Аскелл, по образованию философ, во многом определяет «характер» Клода в системных промптах и является самой влиятельной женщиной-философом в истории, если не самым влиятельным философом вообще.

Антропики провели конференцию чисто. Шестьсот человек, три сцены, плюс параллельный воркшоп-трек — и при этом нигде ни одной очереди, всем хватало мест, всем хватало розеток, работал интернет. Авокады тосты и спешиалти кофе на завтрак, flatbread с ягненком и розе на ужин. Я не знаю где они взяли таких организаторов ивентов, но это высший класс, лучше в технической среде для массовой аудитории за 20 лет я не встречал.

Возвращаюсь к поднятым рукам.

Они опускаются так же спокойно, как поднялись. Никто не переглядывается с соседом. Спикер кивает и переходит к следующему слайду. Никто не считает, что произошло что-то особенное. Это просто работа, которой все занимаются последний год

Статью написал Иван Кузнецов, продуктовый менеджер, AI и RoR энтузиаст. Веду закрытое сообщество для опытных пользователей ИИ Нейробилд.

Заметки на полях с Code with Claude London 2026

Спор закончился

Память и контекст

Как дать агентам чувство "вкуса"

Мертв ли промптинг?

Инжиниринг в эпоху ИИ

Два хороших примера это доклады Base44 и Spotify

Борис, калькулятор и семь лайков

Не боги горшки обжигают

А как с фуршетом?

Руки в зале