«Он вроде бы работает»: Cursor провёл эксперимент и попросил ИИ-агентов за неделю написать браузер

Лучшей моделью для долгой работы, по словам исследователей, оказалась GPT-5.2.

Скриншот из поста сооснователя Cursor. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fmntruell%2Fstatus%2F2011562190286045552%3Fs%3D20&postId=2692390" rel="nofollow noreferrer noopener" target="_blank">@mntruell</a>

Глава ИИ-редактора кода Cursor Майкл Труэлл рассказал, что 20 ИИ-агентов на базе GPT-5.2 за одну неделю написали код для браузера «из более чем 3 млн строк в тысячах файлов» в рамках эксперимента компании. В публикации исследователей указан 1 млн строк.
Движок, по словам Труэлла, написан с нуля на Rust. Исходный код выложили на GitHub.
Браузер «вроде бы работает» — команда была удивлена, что простые веб-сайты «отображаются быстро и в основном верно», хотя результат «далёк» от Webkit и Chromium, добавил гендиректор Cursor.

Так браузер отображает страницы. Источник: Cursor

Эксперимент запустили, чтобы проверить возможности ИИ-агентов для самостоятельного написания кода в долгих проектах, «на реализацию которых у людей обычно уходят месяцы».
Сначала 20 «равных» ИИ-агентов сами решали, что делать, ориентируясь по задачам в общем документе. Подход оказался неудачным — работали всего 2-3 бота, остальные оставались в режиме ожидания.
Тогда команда перешла к системе с закреплёнными обязанностями. В ней были «планировщики», которые изучали кодовую базу и ставили задачи, и «сотрудники», которые их выполняли. Они и написали код за неделю.
Исследователи отмечают, что модель GPT-5.2 от OpenAI лучше справлялась с долгой автономной работой. Claude Opus 4.5, по их словам, прерывалась до завершения задачи и искала более быстрые пути решения.
GPT-5.2 лучше справлялась с планированием, чем GPT-5.1-codex, хотя последнюю специально оптимизировали для сложных задач в программировании.

#редакция