🔥 Эксперимент, где ИИ-агенты кодят неделями без людей

В Cursor протестировали сотни агентов на больших проектах: сборка браузера с нуля и миграция кодовой базы (с Solid на React) 😎

Кратко про результат:

✦ Более 1 млн строк кода написано, расход в 1 трлн токенов, всего правок за 3 недели: +266K/-193K (React/Solid), Rust-рендер x25 быстрее

✦ Эксперименты показали, что агенты могут справляться со сложными проектами

✦ Плоская самоорганизация провалилась: блокировки задач, долгие ожидания, работа без результата, потеря фокуса

✦ Решение: A2A-конвейер с четким разделением и иерархией

✦ Исполнители берут задачу, решают без лишней координации, пушат изменения, далее судья-агент смотрит и решает

✦ Современные модели, такие как, внимание... GPT-5.2 демонстрируют высокую эффективность в автономной работе (Opus 4.5 сливается раньше)

✦ Точные инструкции важнее платформы, но структура спасает от бардака

Главное:

Если делаете агентскую систему, то особое внимание уделите структуре и иерархии (A2A). Не делайте одну большую и универсальную модель — специализированные агенты работают уж точно с меньшим полураспадом!

Подписывайтесь на Telegram EFEMERA: AI news.

2
Начать дискуссию