{"id":14271,"url":"\/distributions\/14271\/click?bit=1&hash=51917511656265921c5b13ff3eb9d4e048e0aaeb67fc3977400bb43652cdbd32","title":"\u0420\u0435\u0434\u0430\u043a\u0442\u043e\u0440 \u043d\u0430\u0442\u0438\u0432\u043e\u043a \u0438 \u0441\u043f\u0435\u0446\u043f\u0440\u043e\u0435\u043a\u0442\u043e\u0432 \u0432 vc.ru \u2014 \u043d\u0430\u0439\u0434\u0438\u0441\u044c!","buttonText":"","imageUuid":""}

Создаю приложение с нейросетью — но кому оно нужно?

Дисклеймер: к своим 30+ годам программированием не занимался никогда (не считая написания модов для пары игрушек, когда мне было 16 лет), но интересовался, но не сильно:) В тексте я сознательно буду избегать упоминания некоторых точных деталей и нюансов, потому как я тот еще параноик.

Год назад устроился на работу по проверке фотоотчётов (удалёнка) в компанию, весьма крупную. Суть работы: захожу на корпоративный портал, смотрю фотографии, отмечаю в эксельке, какие есть по категориям в каждом отчете, пишу комментарии. Рутины в процессе много: критериев оценки около 10; фотографий, в среднем, 15 на отчет(но бывает и 30, и 40), с некоторых из них нужно еще и информацию перенести в эксельку (текст).

Первое, до чего дошли руки - VBA-скрипты. При помощи гугла достаточно быстро набросал несколько нужных, ускорив работу примерно в полтора раза (правда, еще и второй монитор помог, но это обстоятельство, которое дальше влияния не оказывало - он просто стал не нужен). Стало быстрее (а оплата по выработке, так что да, время - деньги), но всё так-же рутинно.

Далее была попытка сделать девайс, на подобии мини-клавиатуры, на ардуинке, забиндив на клавиши сочетания клавиш для VBA-функций. НО, так и не реализовал, так как нашел вариант в виде приложения на андроиде, передающего скриптовые команды на ПК. В нем можно было подредактировать интерфейс под свои нужды, записать весьма интересные скрипты (передвинуть курсор туда, кликнуть, передвинуть сюда, нажать правую кнопку, нажать сочетание клавиш...). Стало еще быстрее. Но всё еще медленно...

И вот в декабре я добрался до Python. Главное и первое, что я вынес из него - эксельку можно заполнять в фоне! Это уже снимало кучу лишний телодвижений, экономя кучу времени. Тут же началось изучение средств написания графических интерфейсов. Сначала примитивы на pyautogui, потом tkinter, буквально месяц назад "дорос" до Qt.

Одновременно с этим шла работа с комментариями в фотоотчётах (да, там есть и обычный текст). Их считать было не сложно, но нужно было "извлечь" из них значимое, и сформировать то, что нужно внести в эксельку. Но это всё нюансы...

На протяжении всего пути с Пайтоном, не покидала мысль подключить к процессу нейросеть. Не имея никакого опыта, гуглом и костылями, абсолютно без понимания, что-то изредка городил с марта по май, не особо веря в успех (потому как результата не было совсем). Пока не наткнулся на он-лайн сервис, где прям вот фоточки грузишь - а оно тебе модель обученную. Решил попробовать (датасеты уже к тому времени формировались автоматом в процессе работы), и, о чудо!, оно заработало. Да, криво, да, косо, да, пришлось перекраивать, но результат был! Это вселило надежду, что затея не бесполезна, и я начал изучать нейросети.

Что есть сейчас? Программа, которая худо-бедно раскидывает примерно 30% фоток правильно (это на старой модели, сделанной на сайте, но откорректированной), считывает текст с примерно 70% фоток (с которых нужно считывать, это около 10% от всех), при том, что не весь текст нужен, а несколько строго определенных фрагментов. Текст комментария из фотоотчета распознает в 98% случаев, оставшиеся 2% - это настолько исключения, что человеку порой сложно понять, что, зачем, и в каком бреду там написано. Насчет распознавания фоток по категориям я особых иллюзий не строю, понимая, что контроль корректности работы программы должен оставаться на условном операторе, все же фотографии в своей массе очень разные. Но цель довести корректность (именно корректность, а не точность) распознавания до 90%(для чего я и самообучаюсь сейчас). Всё же есть большая разница в том, чтобы просмотреть на предмет соответствия категории условные 800 фотографий в папке (понимая, что все они относятся к одной категории), чем те же 800 фоток распихивать по 10 папкам(категориям) руками. Также есть мысль добавить генетический алгоритм обучения (может, и лишнее, но очень хочу попробовать). Уже сейчас, при 30%, я за 2-3 ленивых дня выполняю объем работы больше, чем коллеги успевают за неделю. "Умничка"-, скажете вы, но... А что дальше?

Вот самый главный вопрос: что дальше? Востребована ли вообще подобная программа у бизнеса? Может ли это начинание стать каким-никаким стартапом? Или проще довести ее до ума, и попытаться продать текущему работодателю за хоть какие-то деньги (опять же, насколько можно обнаглеть)? Или я просто страдаю фигнёй, которой меня никто не просил заниматься, и максимум, что я из этого вынесу - это опыт и возможность получать какое-то время деньги(не известно, сколько времени еще эти проверки будут нужны), прилагая минимум усилий на работу, и уделяя больше времени саморазвитию?

С интересом выслушаю любые точки зрения.

0
79 комментариев
Написать комментарий...
Nikolay Vavilov

Человек открыл для себя программирование и 1 раз использовал библиотеку питончика (openCV?) и начинает понимать, почему в РФ рабочая сила дешевая, а многие бизнесы не эффективные. 
Продавать работодателю смысла нет, а вот приобретенные навыки можно использовать как старт для обучения и будущего смены работы. 
Высвободившееся время можно как раз на это дело тратить. 

НУ либо можешь работодателю показать, если коллеги прям бесят - как раз сократят одного человека, а часть задач на тебя перекинут.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Nikolay Vavilov

а причем тут анализ видеоизображения?

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Nikolay Vavilov

господи чел, что ты несешь? почитай что такое openCV, потом уже пиши.
если ТС ни слова не проронил про тензор или керас, значит дальше одной самой популярной либы он не ушел. Гитхаба тут тоже нет.
поэтому скорее всего это была популярная opencv

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Nikolay Vavilov

на вот, изучай:
OpenCV (Open Source Computer Vision Library) is one of the most widely used libraries for computer vision applications
https://opensource.com/article/19/3/python-image-manipulation-tools

а прости, тыж английский не знаешь) анализ видеозображений ахах

Ответить
Развернуть ветку
76 комментариев
Раскрывать всегда