Новый Опус: как оценить модель для больших проектов
Вышел новый Опус и вот уже пересуды, дескать, круче ли модель всего существующего, или нет.
И многие судят по странным бенчмаркам, типа "о господи, она работала 5/20/50/100500 минут и все сделала что нужно!"
Я и сам грешным делом этому поддаюсь.
На деле же риал шит риал толк в том, насколько модель может имплементировать фичу с высокой связностью для большого проекта.
Ну а по-проще, бенчмарк это если она корректно и без подсказок сделала фичу, для которой уже есть с десяток методов, разбросанных в разных файлах, каждый из которых нельзя изобретать заново, а нужно использовать имеющийся.
И при этом проект имеет размер не в жалкие 5 тысяч строк/50к контекста, а что-нибудь типа от миллиона, а лучше от пяти.
В идеале еще, чтобы эта фича использовала свойства новых библиотек (вышедших вот вчера), то есть для корректной разработки нужно бы еще и погуглить, и не запутаться в версиях.
Вот тогда можно назвать модель прорывной в задачах кодинга. Потому что с более примитивными задачами они и так справляются почти все нормально, и отличия там небольшие.
Подписывайтесь на Telegram Глеб Кудрявцев про AI кодинг.