Gleb Kudryavtcev

+2431
с 2014
202 подписчика
29 подписок

А вот и модель под клешню подъехала 😁

GPT‑5.4 is the first general-purpose model we’ve released with native, state-of-the-art computer-use capabilities, enabling agents to operate computers and carry out complex workflows across applications.

Кодекс прям тупит отчаянно? Вчера было плохо, сегодня совсем мозг выключился. Не замечали?

На вайб-портале начинают появляться интересные статьи!

Если вы — автор, пишите, с удовольствием буду о них рассказывать в блоге.

Встретил отзыв чувака, стыревшего мой курс 🙂

Курс по AI разработке от Глеба Кудрявцева: отзывы и результаты

Важный вопрос, что вы делаете с чувством, что вы туповаты для всей этой херни?

Не знаю, может я уникален, но очень сложно даются агентские пайплайны. Мозг реально дымится когда делаю промпты уровня продакшена, особенно если там всякие рекурсивные циклы. Это при том, что я сам кодовых агентов делал (работающих!), все равно сложно.

Если вам кажется, что модели могут все — отвечаю, не все. Попробуйте сделать эффективный 3d движок, офигеете, как топовая моделька от каждой из топовых лаб путается в трех соснах на контексте всего в 100к. Я, пожалуй, свои эксперименты в этом направлении прекращу — еще все очень сыро.

Эффективные 3D движки и их ограничения в моделировании

Не знаю, просто наблюдением поделиться захотелось. Если вы не долбанутый, то очень даже можете завести свой свой бизнес. Но блогером вам точно не стать. Это как рост меньше двух метров в басктболе. Нормальная кукуха — можно даже не пытаться.

Добавлю, что OCR сетки очень плохо справляются с чеками, этикетками, составами продуктов и т.д. мелким плохоразличимым шрифтом. Они чисто для сканов книжных страниц и документов. Если вам распознавать кривые-косые тексты, то тут нужно использовать VL модели. Мне лично грок нравится, но вполне неплохо работают квены, gemini flash, и еще куча других.

Я paddleocr-vl-1.5 Q8 сломал таким чеком

Добавлю, что OCR сетки очень плохо справляются с чеками, этикетками, составами продуктов и т.д. мелким плохоразличимым шрифтом. Они чисто для сканов книжных страниц и документов. Если вам распознавать кривые-косые тексты, то тут нужно использовать VL модели. Мне лично грок нравится, но вполне неплохо работают квены, gemini flash, и еще куча других.

Напоминаю, а то вдруг вы не в курсе. Если вам OCR делать, то лучшая моделька на сегодняшний момент https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5

Запускается даже на 3060…

1