🔥 Эксперимент, где ИИ-агенты кодят неделями без людей
В Cursor протестировали сотни агентов на больших проектах: сборка браузера с нуля и миграция кодовой базы (с Solid на React) 😎
Кратко про результат:
✦ Более 1 млн строк кода написано, расход в 1 трлн токенов, всего правок за 3 недели: +266K/-193K (React/Solid), Rust-рендер x25 быстрее
✦ Эксперименты показали, что агенты могут справляться со сложными проектами
✦ Плоская самоорганизация провалилась: блокировки задач, долгие ожидания, работа без результата, потеря фокуса
✦ Решение: A2A-конвейер с четким разделением и иерархией
✦ Исполнители берут задачу, решают без лишней координации, пушат изменения, далее судья-агент смотрит и решает
✦ Современные модели, такие как, внимание... GPT-5.2 демонстрируют высокую эффективность в автономной работе (Opus 4.5 сливается раньше)
✦ Точные инструкции важнее платформы, но структура спасает от бардака
Главное:
Если делаете агентскую систему, то особое внимание уделите структуре и иерархии (A2A). Не делайте одну большую и универсальную модель — специализированные агенты работают уж точно с меньшим полураспадом!
Подписывайтесь на Telegram EFEMERA: AI news.