Новый Опус: как оценить модель для больших проектов

Вышел новый Опус и вот уже пересуды, дескать, круче ли модель всего существующего, или нет.

И многие судят по странным бенчмаркам, типа "о господи, она работала 5/20/50/100500 минут и все сделала что нужно!"

Я и сам грешным делом этому поддаюсь.

На деле же риал шит риал толк в том, насколько модель может имплементировать фичу с высокой связностью для большого проекта.

Ну а по-проще, бенчмарк это если она корректно и без подсказок сделала фичу, для которой уже есть с десяток методов, разбросанных в разных файлах, каждый из которых нельзя изобретать заново, а нужно использовать имеющийся.

И при этом проект имеет размер не в жалкие 5 тысяч строк/50к контекста, а что-нибудь типа от миллиона, а лучше от пяти.

В идеале еще, чтобы эта фича использовала свойства новых библиотек (вышедших вот вчера), то есть для корректной разработки нужно бы еще и погуглить, и не запутаться в версиях.

Вот тогда можно назвать модель прорывной в задачах кодинга. Потому что с более примитивными задачами они и так справляются почти все нормально, и отличия там небольшие.

Подписывайтесь на Telegram Глеб Кудрявцев про AI кодинг.