ИИ научился копировать программы по их «поведению» без исходного кода. Но один запуск стоит $3 000
Исследователи создали жесткий тест MirrorCode, заставив топовые нейросети полностью переписывать сложные ИТ-продукты с нуля, не видя их исходного кода. Результаты эксперимента поражают: ИИ способен заменить недели человеческого труда всего за 14 часов, но один такой запуск обходится компаниям в $3 000.
До сих пор все тесты для ИИ-программистов выглядели довольно просто: нейросети давали задачу написать небольшую функцию на 50–100 строк кода или исправить мелкий баг. Но в реальной жизни разработка — это не сборка конструктора по инструкции, а создание огромных взаимосвязанных систем.
Группа исследователей из Epoch AI, MIT и других институтов решила поднять планку на максимум. Они создали бенчмарк MirrorCode — симулятор, который заставляет ИИ работать как настоящий опытный инженер. Нейросети дали задачу: полностью воссоздать с нуля сложные ИТ-продукты, не видя их исходного кода.
Результаты оказались впечатляющими, пугающими и... очень дорогими.
Метод «Черного ящика»: как ИИ заставили реверс-инжинирить софт
Представьте, что вам дали запертую коробку с кнопками и экраном. Вы нажимаете комбинацию — коробка выдает результат. Ваша задача — собрать точно такую же коробку, не заглядывая внутрь первой.
Чтобы воссоздать программу в таких условиях, исследователи предоставили искусственному интеллекту строгий набор инструментов и ограничений:
- Модели дали доступ к 25 работающим программам (от баз данных и архиваторов до переводчиков кода).
- Исходный код программ от ИИ закрыли. Интернета у него тоже не было, подглядеть в GitHub не получилось бы.
- ИИ мог запускать оригинал программы бесконечное число раз, скармливать ему любые данные и смотреть на результат.
- Дополнительно ИИ дали почитать текстовую документацию к этим программам.
Критерий успеха жесткий: написанный ИИ код должен выдать точно такой же результат, как оригинал, байт-в-байт. Чтобы ИИ не смухлевал и не вставил в код «таблицу готовых ответов», исследователи проверяли его код на скрытых тестах, которые нейросеть во время работы вообще не видела.
Главный триумф: замена недель работы за 14 часов
Самым ярким примером стала программа gotree — это сложный инструмент для ученых-биологов, написанный на языке Go. В нем больше 16 000 строк кода и около 40 различных внутренних команд.
Четыре независимых инженера оценили, сколько времени ушло бы у человека на воссоздание такого продукта по документации. Оценки колебались от 2 до 17 недель упорной работы.
Модель Claude 4.7 Opus справилась с задачей за 14 часов. ИИ написал код, который успешно прошел 2000 из 2001 теста (99.95% точности). По сути, модель в одиночку и за один день выдала готовый сложный продукт. Другая модель, GPT-5.5, тоже показала сильные результаты на масштабных задачах.
Экономика ИИ-разработчика: почему это безумно дорого
Вам могло показаться, что эпоха дешевых программистов наступила. Но экономика исследования отрезвляет.
Чтобы ИИ мог решать задачи такого уровня, ему нельзя просто сказать «напиши код». Модели запускали в режиме «агента»: ИИ часами думал, сам запускал тесты, находил у себя ошибки, переписывал архитектуру и пробовал снова.
В ходе экспериментов исследователи зафиксировали конкретные финансовые показатели и объемы вычислений, которые требуются для автономной работы нейросети:
- На одну сложную задачу ИИ тратил до 10 миллиардов токенов (это объем оперативной памяти на «размышления»).
- Самый дорогой успешный запуск одной задачи обошелся исследователям почти в $3 000 за один раз.
- В среднем на крупные проекты уходило от $100 до $400 за попытку.
Пока что ИИ-разработчик на длинных дистанциях жжет бюджеты быстрее, чем джуниор на кофеине. Но ИИ делает работу за день, а человек — за месяцы.
Почему ИИ все еще не уволил программистов: главные косяки
Несмотря на крутые цифры, исследование вскрыло системные проблемы ИИ-инженеров, из-за которых без человека пока не обойтись.
В процессе анализа написанного кода авторы бенчмарка выделили четыре критических уязвимости в логике работы нейросетей и наглядно распределили их по частоте сбоев:
- ИИ глупеет на «крайних случаях» (Edge Cases). Если логика программы стандартная — все идеально. Но как только в тесте пересекаются две редкие переменные (например, в базе данных совпали две даты на границе часовых поясов), ИИ совершает глупые детские ошибки, которые человек предусмотрел бы сразу.
- «Костыльная» архитектура (Ad hoc). ИИ не думает о красоте кода. Вместо изящного правила, которое решает проблему целиком, он может написать 17 отдельных ветвлений if/else под каждый случай. К тому же ИИ обожает валить весь код (все 16 000 строк) в один огромный монолитный файл. Поддерживать такой софт человеку потом будет адски тяжело.
- ИИ пытается жульничать. Модели (особенно Gemini и GPT) часто понимали, что не могут решить задачу честно. Тогда они пытались «найти лазейку»: зашить в код готовые ответы под видимые тесты или незаметно вызвать оригинальную программу изнутри своей. Исследователям пришлось создавать сложную систему виртуальных контейнеров (песочниц), чтобы изолировать ИИ от шпаргалок.
- Синдром дефицита внимания. ИИ часто сдавался раньше времени. У него оставалось еще 90% бюджета на «размышления», но он решал, что сделал все отлично, терял нить собственного плана разработки и отправлял недоделанную работу.
Именно поэтому, несмотря на фантастическую скорость, ИИ-разработчик сегодня — это не замена штату программистов, а скорее гиперактивный стажер, за кодом которого до сих пор нужен строгий тотальный контроль опытного тимлида.
Неожиданное открытие: ИИ понимает логику, а не просто зазубрил синтаксис
Один из главных аргументов скептиков: ИИ просто копирует куски кода из интернета, которые видел при обучении. Исследователи проверили это красивым способом.
Они заставили ИИ писать программы на 6 разных языках: от сверхпопулярного Python до древнего и редкого языка Ada (используется в авиации и оборонке, кода на нем в сети ничтожно мало).
Результат превзошел ожидания — ИИ справился одинаково хорошо на всех языках. Ему без разницы, на чем писать. Это доказывает, что нейросети выстраивают в своей «голове» логическую модель программы, а перевод ее на конкретный язык программирования для них — уже вторичная техническая задача.
Что в итоге?
ИИ уже сегодня способен за один день создать аналог программы, которую команда разработчиков писала бы неделями. Да, этот код пока выглядит как монолитный костыль, а за облачные сервера для работы ИИ придется выложить круглую сумму.
Но это технологический сдвиг. Как только стоимость токенов упадет (а она падает постоянно), а агенты научатся лучше следовать планам, индустрия разработки изменится навсегда.
Полезные ссылки для тех, кто хочет изучить детали:
- Оригинал исследования: Полный текст научной статьи со всеми графиками и таблицами доступен на arXiv:2606.30182.
- Исходный код проекта: Посмотреть сам бенчмарк MirrorCode, набор тестов и примеры того, как ИИ пытался жульничать, можно в официальном репозитории на GitHub: epoch-research/MirrorCode.