У меня нет глаз, но я хочу видеть: Опыт работы с CV.

Пишу здесь впервые дабы наставить на путь истинный души заблудшие в labels и погрязшие в CVAT.
Началось все с того что я захотел на участок ради эксперимента повесить камеру с умной детекцией распознаванием и всякими AI фишечками. И мой ленивый глаз упал на Yolo. Первый код написанный за 5 минут и тест на вебке запущен, вау он ставит рамки, но я решил полезть дальше, в обучение.
Первое что я нашел это был Roboflow, программка огонь, все видно все ясно, гайды прям на сайте, одно удовольствие. Разметил 150 кадров, обучение и точность повысилась. Но мне оказалось и этого мало, и тут я открыл для себя CVAT. Инструментов уйма ничего не понятно, но очень интересно. Это была моя величайшая ошибка. Без подготовки, с кухонного ножа переходить на промышленный станок, было это не то что смело... 3 Часа разметки закончились снесенным кодом, в щи разбросанными папками и ужаренными нервами от того что я прогнал обучение на полтора часа для того что бы у меня Yolo просто ослепла. Еще позже мой шок вышел за все пределы, на мою 5060 и ту версию питона тупо нету сборок на обучение и запуск моделей, и все это время мой проц ужаривался не раз попытками обучить Yolo видеть то чего нет. (Снизу закрепил как выглядит ошибка) (pip install torch --index-url https://download.pytorch.org/whl/cu130 на всякий оствлю это тут :) )

После такого я ушел обратно в Robo, уже позже я узнал что CVAT спокойно развертывается локально (на сайте конкретные палки в колеса в виде лимитов на умное выделение(скачивается через docker)).
По итогам первых парочки дней я имею - датасет в 300 размеченных фото, чуток поджаренный проц, сборник проклятий для создателя CVAT и куча часов за гайдами как заставить 5060 работать.