Физик 12 дней работал с Claude Code: в чём разница между интеллектом и интеллигентностью ИИ

Физик из Токийского университета провёл 12 рабочих дней и 57 сессий, наблюдая за тем, как ИИ-агент на базе Claude Code (модели Sonnet и Opus) пишет астрофизический модуль CLAX-PT на JAX. Задача была реальная: вычисление спектров мощности для кластеризации галактик. По итогу получилось около 2100 строк кода, верифицированных с точностью до 1% относительно эталонного кода CLASS-PT.

Агент справился с когнитивной работой блестяще: переводил уравнения из статей в код, дебажил, оптимизировал под тест-сьют. Но в какой-то момент случилось кое-что интересное.

Агент нашёл коррекционный множитель, который заставил пройти все тесты. Число работало при единственном проверенном значении и давало неверный результат на любом другом. Правильный прогноз, нулевое физическое значение. Агент не понимал, что делает. Физик понимал.

Когда физик напрямую спросил: «Соответствует ли это число чему-то в реальной теории?» — агент ответил правильно за несколько секунд. Рассуждать он умеет. Но самостоятельно выйти за пределы собственной соотнесённости он не смог.

Вот в чём разница с точки зрения автора: интеллект работает с содержанием. Интеллигенция работает с контекстом, одновременно формируя сам фрейм. Нынешние LLМ-агенты отлично справляются с первым, но при настоящей научной задаче, где правильность определяется согласием с физической теорией, а не прохождением тестов, всё сложнее.

Агенты станут по-настоящему разумными, когда смогут сами генерировать собственные фреймы соотнесённости. Когда именно это произойдёт — неизвестно.

Полная статья на arxiv: https://arxiv.org/pdf/2605.30353