Сотрудник юридического или договорного отдела работает с договорами, допсоглашениями и прочими официальными документами. Типичная ситуация, когда с его стороны документ подписан, он отправляет его контрагенту и спустя какое-то время получает от него подписанный экземпляр в формате скана или фотографии, в некоторых случаях бумажный оригинал. Теперь нужно сравнить присланную версию с отправленной: найти различия, новые пункты, примечания и прочее.
Таких документов в месяц может быть от 10 до 1000, на каждый в среднем уходит 10-15 минут. Где-то после десятого документа в день глаза предательски устают, и сотрудник перестает замечать важные моменты. В практике клиента был прецедент, когда во время сверки сотрудник не заметил ключевое исправление по срокам оплаты, и документ приняли. В итоге компания понесла потери на несколько миллионов рублей. Одна допущенная ошибка стоила очень дорого.
Илья, здравствуйте! Дублирую в вашу свежую статью вопросы про ваше решение по распознаванию документов из другой темы.
1) вы писали, что у вас 93-97% качество распознавания. Скажите это качество по полям или по символам? На чем измеряли (фото, сканы)? Были ли в выборке пережатые сканы с МФУ? На каком количестве страниц вы делали замеры?
2) Вы писали что используете для распознавания символов OCR от Google - Tesseract и другие открытые OCR. По моему мнению именно технология OCR это 95% всего процесса распознавания. Я имею в виду что именно OCR это основной элемент системы распознавания. Например, сколько вложено в Tesseract разработчиками и потом Google даже сложно сказать. Может 10+ млн долларов, а может и сильно больше. Думаю вы понимаете, что именно поэтому в мире работающих OCR всего штук 10, а может и меньше. Поэтому когда в ПО чужая OCR говорить что нет зависимости странно. Сегодня открытые, а завтра в текущих реалиях закрытые.
Можете рассказать сколько человеко-лет вы вложили в разработку? Кто из учёных курирует разработку?