Погуглив, мы собрали еще 200 фото, которых тоже оказалось недостаточно. В ход пошли офисные и вне офисные фотосессии коллег на разных фонах и в разной одежде. У нас получилось еще 1500 картинок. Казалось бы, что этого должно быть достаточно. Однако теперь образовалась новая проблема: алгоритм считал, что если оттопырен палец вверх или вниз, значит лайк или дизлайк соответственно. Мы снова отправились собирать датасет, только теперь с другими жестами или вообще без них. В итоге, у нас получился набор, который состоит из 3 000 размеченных фотографий, сделанных с разных ракурсов и на различных фонах, где люди показывают большой палец вверх, вниз или что-то другое.
Выглядит как тренировочное задание на курсе по CV.
Зачем было всех мучать и делать на чистом питоне, когда есть TF, Keras?
Удивились про то, что работает только на мужских руках и на изображениях? Про оверфиттинг не слышали?
Не проще ли было кропнуть изображения и прогонять само изображение лайка или дизлайка не собирать различные фоны , разную одежду итд.
Зачем было всех мучать и делать на чистом питоне, когда есть TF, Keras? Мы никого не мучали) О второй части вопроса могу сказать, что Darknet – это отдельный фрэймворк, например. С его помощью была натренировна модель Tiny-YOLO 3, которая быстрее многих сетей на TF/Keras. Нам была важна скорость. В самой программе архитектура и веса загружаются с помощью OpenCV.
Удивились про то, что работает только на мужских руках и на изображениях? Про оверфиттинг не слышали?Слышали, не он)
Не проще ли было кропнуть изображения и прогонять само изображение лайка или дизлайка не собирать различные фоны, разную одежду итд.Проще, но это другая задача.