Продолжу знакомить сообщество vc.ru с прелестями и возможностями применения искусственного интеллекта в работе с документами. Пару постов назад я разбирал кейс по умному поиску штампов на документах. А в этом материале хочу осветить еще один интересный кейс – как перестать сверять версии документов вручную и доверить это искусственному интеллекту.
Илья, здравствуйте! Дублирую в вашу свежую статью вопросы про ваше решение по распознаванию документов из другой темы.
1) вы писали, что у вас 93-97% качество распознавания. Скажите это качество по полям или по символам? На чем измеряли (фото, сканы)? Были ли в выборке пережатые сканы с МФУ? На каком количестве страниц вы делали замеры?
2) Вы писали что используете для распознавания символов OCR от Google - Tesseract и другие открытые OCR. По моему мнению именно технология OCR это 95% всего процесса распознавания. Я имею в виду что именно OCR это основной элемент системы распознавания. Например, сколько вложено в Tesseract разработчиками и потом Google даже сложно сказать. Может 10+ млн долларов, а может и сильно больше. Думаю вы понимаете, что именно поэтому в мире работающих OCR всего штук 10, а может и меньше. Поэтому когда в ПО чужая OCR говорить что нет зависимости странно. Сегодня открытые, а завтра в текущих реалиях закрытые.
Можете рассказать сколько человеко-лет вы вложили в разработку? Кто из учёных курирует разработку?