Нейросети для программирования

Вышла новая линейка моделей для написания кода от китайцев: Qwen2.5-Coder (0.5B / 1.5B / 3B / 7B / 14B / 32В).
Всё это можно запустить локально у себя на компьютере.
Старшая версия Qwen2.5-Coder-32B (https://huggingface.co/chat/models/Qwen/Qwen2.5-Coder-32B-Instruct), по некоторым бенчмаркам, лучшая из Opensource и подбирается к Claude 3.5 Sonnet и GPT-4o.
Захотелось проверить новую модель, но для этого нужна интересная задача, чтобы быстро понять уровень модели в программировании. И вот наткнулся на красивую визуализацию основанную на коде для процессинга (https://x.com/yuruyurau/status/1855984865080234183):

a=(x,y,d=mag(k=x/8-25,e=y/8-25)**2/99)=>[(q=x/3+k*.5/cos(y*5)*sin(d*d-t))*sin(c=d/2-t/8)+e*sin(d+k-t)+200,(q+y/8+d*9)*cos(c)+200] t=0,draw=$=>{t||createCanvas(w=400,w);background(6).stroke(255,96);for(t+=PI/60,y=99;y<300;y+=5)for(x=99;++x<300;)point(...a(x,y))}

Я попросил визуализировать этот код следующие модели:
- Claude Sonnet 3.5
- Qwen2.5-Coder-32B
- GPT-4o
- GPT o1-mini
- GPT o1-preview

Claude
GPT o1-preview
Остальные

Результат меня удивили 😐 :
1. Справилась только Claude Sonnet 3.5. (видео 1)
2. У GPT o1-preview получилось что-то похожее... (видео 2)
3. Остальные и близко не справились. (видео 3)
Конечно задачка странная и объективностью тут не пахнет, но некоторые выводы вы сделать сможете.
🧐 Как думаете, какие еще тесты можно использовать для проверки ИИ в программировании?

Про ИИ для написания кода:

Начать дискуссию