{"id":14276,"url":"\/distributions\/14276\/click?bit=1&hash=721b78297d313f451e61a17537482715c74771bae8c8ce438ed30c5ac3bb4196","title":"\u0418\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u0439 \u0442\u043e\u0432\u0430\u0440 \u0438\u043b\u0438 \u0443\u0441\u043b\u0443\u0433\u0443 \u0431\u0435\u0437 \u0431\u0438\u0440\u0436\u0438","buttonText":"","imageUuid":""}

Как нейросети и люди распознают документы с точностью 99% и в 2–3 раза дешевле штатных сотрудников

Самые крутые нейросети распознают до 96% полей в документе. Если текст рукописный, точность может упасть до 20%: нейросети не сильны в военных билетах, трудовых книжках и извещениях о ДТП.

Рассказываю, как работают два гибридных решения, Dbrain и «Биорг», где часть работы по распознаванию достается людям, кому они будут полезны и что там с безопасностью.

Так начинается типичное заявление на ипотеку, в котором заемщику надо заполнить десятки полей не нескольких страницах:

Анкету нужно распечатать, расписаться, сфотографировать или отсканировать. Потом отправить в банк вместе с согласием об обработке персональных данных, справками с работы и другими документами. Это десятки страниц с данными, которые каким-то образом должны попасть в систему банка.

В 2020 году российские банки выдали больше 1,7 млн ипотечных кредитов, потребительских — на порядок больше. Страховые компании оформили миллионы полисов, по одному только ОСАГО они отработали примерно 2 млн заявлений на возмещение ущерба. Белый бизнес официально оформил на работу миллионы сотрудников с их паспортами, ИНН, трудовыми книжками, СНИЛС, дипломами и свидетельствами. Ритейл разбирался с миллионами бумажных счетов, накладных и поручений. В магазинах заполнили миллионы анкет в обмен на карту лояльности.

Каждый случай — это масса полей с текстом, которые нужно перенести в систему компании: имя, город, марка автомобиля, адрес регистрации, название поставщика, предложения по улучшению обслуживания в свободной форме. Надеюсь, вы представили масштаб проблемы.

Как компании переносят данные из сканов и бумаги в свои системы

Есть разные варианты импорта данные от клиентов, контрагентов и сотрудников.

1. Ручная классика. Большие компании содержат сто, двести, триста человек, чья работа — восемь часов в день перебивать цифры и слова в базы компании. Допустим, оператор обрабатывает комплект документов одного клиента за 40 минут — компании это обойдется примерно в 200 рублей с учетом всех расходов. Если компания растет, придется нанимать больше операторов и расширять офис.

Импорт бухгалтерских документов — отдельная история. Для многих бухгалтерий конец отчетного периода — время жестких переработок, потому что не все контрагенты работают через электронный документооборот (ЭДО).

2. ИИ + сотрудники компании. Нейросети с компьютерным зрением (OCR) распознают и импортируют данные. Сотрудникам остается сканировать бумажные документы для нейросетей и разбираться со сложными случаями. Хорошее IT-решение распознает до 96% полей в документах, пока это вроде потолка. Если нужно распознать текст от руки, идеал — 70–75% точности. В исключительных случаях 80%.

То есть сотрудники берут на себя всего 5–30% рутины. Это в среднем по больнице, но в любом случае компании уже нет смысла содержать такой большой штат, как при 100-процентном ручном вводе. И офис нужен не такой большой. Проблема в том, что сотрудники не всегда могут моментально отреагировать, когда нужно вмешаться, ведь их теперь мало. Это значит, к примеру, что компания не может гарантировать клиентам: «мы примем решение по вашему страховому случаю всего за 15 минут».

Возможно, в первый раз разбираться, что такое «Шруслер», придется сотруднику страховой компании. Потом нейросеть дообучится и справится сама — в базу попадет единственно возможный вариант Chrysler (фото: car72.ru)

3. ИИ + люди как часть IT-решения. В этом случае компания полностью передает распознавание изображений на аутсорсинг — чаще всего нужен только сканировщик, если есть бумажные документы. Точность распознавания выше 99%, независимо от того, печатный текст или рукописный. Скорость занесения данных из документов в системы компании — от 5 секунд до получаса.

На рынке есть несколько решений, обрабатывающих документы по такой схеме. На примере двух из них покажу, как это работает. В первом случае разметчики данных (будем называть их операторами) находятся в огромной внешней краудсорсинговой платформе, во втором — почти в штате разработчика и их в 100 раз меньше.

Dbrain: работает с Яндекс.Толокой

Общая схема работы решения на сайте Dbrain.io

Кто такие? Dbrain автоматизирует работу с документами с 2017 года. За плечами команды несколько продуктов на основе нейросетей — от чат-бота Icon8, моментально обрабатывающего фотографии, до приложения, контролирующего качество выпекания додо-пиццы. Год назад стартап прошел в Y Combinator, и основатели рассказали читателям VC.ru, как им это удалось.

Проект с распознаванием документов начался, когда команда поняла, что на рынке не хватает ИИ-решений, которые решают проблему импорта данных. А главная беда существующих решений — низкая точность распознавания сканов и фотографий плохого качества.

Клиенты редко присылают идеальные фотографии документов. Блики, тени, размытости, не тот угол, обрезанные края, плохой почерк (особенно в извещениях о ДТП) мешают нейросетям распознать документ, и приходится подключать сотрудников. Вроде польза от решения есть, но ожидание с реальностью не совпадают. Dbrain решил сделать продукт, который минимизирует участие клиента в процессе оцифровки документов.

Что обрабатывают? Основной документ Dbrain — паспорт России и стран ближнего зарубежья. Плюс еще три десятка документов, включая СНИЛС, патент на работу, счет-фактуру (вот полный список документов). Решение работает как в IT-контуре заказчика, так и в облаке.

Для кого? Будет полезно, если нужно:

  • ускорить регистрацию заявок клиентов. Например, при открытии банковского счета или подключении абонентов.
  • исключить опечатки при ручном вводе данных в систему.
  • радикально сократить время на решение по заявке клиента. Например, в крупной страховой компании с ручным вводом данных на урегулирование убытка уходило 3 дня, сейчас — 15 минут.
  • быстрее оформлять на работу, в том числе мигрантов. Особенно актуально для торговых сетей с высокой текучкой линейного персонала. Или для сервисов доставки, которые массово нанимают курьеров.

Какие фишки?

  • высокая точность распознавания некачественных изображений в разных форматах: сканы, фотографии с дешевых смартфонов, jpg.
  • может одновременно обрабатывать 500 пакетов документов без потери скорости и качества.
  • проверяет документы на подлинность, вычисляет фотошоп и сверяет фотографию в паспорте с селфи клиента.

Как работает решение?

1. Документ в электронном виде попадает в каскад нейросетей. Первая нейросеть определяет границы документа и его положение. Если нужно, выравнивает и вырезает по границе.

2. Вторая нейросеть классифицирует тип документа: паспорт, водительское удостоверение или просто картинка из интернета. Последнее отбраковывается.

3. Нейросеть находит поля с атрибутами, которые надо извлечь из документа: ФИО, место жительства, образование, адрес регистрации, марка автомобиля и так далее.

4. Нейросеть распознает («читает») данные из этих полей. Это ключевая процедура — до этого нейросети готовили документ к прочтению. Если сложностей с прочтением нет, пакет документов проходит весь каскад за секунды.

5. Если данные в поле не удалось распознать, поле отправляется в Яндекс.Толоку в виде задания. Обычно это рукописный текст. За задание параллельно берутся два человека, это нужно для повышения точности.

Оператору в Яндекс.Толоке достаточно ввести несколько букв и выбрать подсказку

Если оба распознали текст с одинаковым результатом, дело сделано. Когда есть разночтения, доступ к заданию получает еще один человек — и так до тех пор, пока не будет консенсуса. Нейросеть обучается на основе решений людей, через какое-то время она сама справится с аналогичным текстом.

В Яндекс.Толоке пакет документов находится от 3 до 15 минут.

6. Все распознанные поля склеиваются в единый документ, который поступает в систему клиента либо благодаря API (чаще всего), либо с помощью RPA от вендоров UiPath, Robin или PIX.

Что с безопасностью? В Яндекс.Толоку поступают разрозненные данные: кому-то достанется только имя, кому-то — только госномер автомобиля. Склеить их вместе пользователи Яндекс.Толоки не смогут. Когда распознанный документ поступает в систему заказчика, каждое поле этого документа удаляется из облака.

Все данные передаются по протоколам с криптозащитой, обрабатываются на серверах Selectel, отвечающим требованиям 152-ФЗ.

«Биорг»: используют собственный краудсорсинговый сервис

Кто такие? Позиционируют себя в качестве лидера оцифровки и распознавания персональных данных на российском рынке. За 2019 год обработали 30 млн документов. Первый проект — в 2017 году.

Работают с тяжелыми кастомными проектами. Берутся за то, от чего другие скорее всего вежливо откажутся. Например, оцифровали архивы ЗАГСов нескольких регионов, расшифровывая записи времен Великой Отечественной, сделанные химическим карандашом на газетах (бумага была дефицитной), а на Сахалине пришлось работать с документами на японском языке. Для «Теле2» за 2,5 месяца оцифровали бумажный 15-тонный архив.

Что обрабатывают? Проще сказать, что не обрабатывают, но в общем объеме негосударственных проектов лидируют анкеты клиентов, кадровая и бухгалтерская документация. Научили нейросети распознавать рукописный текст с точностью до 75%.

Работают со сложными для нейросетей документами — трудовой книжкой и военным билетом, где нормальному распознаванию мешают штампы поверх текста и звезды.

Пятиконечные звезды, которые почти на каждой странице, «слепят» нейросети. Точность автоматического распознавания военного билета обычно не выше 20–30% (фото: «Тинькофф-журнал»)

Для кого? Решение нужно компаниям, которые имеют дело с большим объемом первички, анкет от клиентов и документов от новых сотрудников. Например, будет полезно, когда нужно оформлять тысячи новых сотрудников — система в разы быстрее обрабатывает комплекты документов, делает это точнее и дешевле людей.

Похожий расчет экономического эффекта и у Dbrain: затраты на обработку документов, не только кадровых, снижаются в 2–3 раза (источник: beorg.ru)

Наиболее популярная услуга, если судить по проектам, — обработка анкетных данных в рамках программ лояльности и исследований рынка. За этим обращались, в частности, S7, IKEA, «Вкусивилл», «Пятерочка», «Лента», «Окей», «Адамас», «Детский мир», Natura Siberica, «Якитория».

Какие фишки?

  • высокая производительность: способны обработать до 5 млн документов в сутки.
  • собственная краудсорсинговая платформа, объединяющая 60 тысяч операторов, которые работают по ГПХ или в качестве самозанятых. Компания часто отмечает, что ведет социально ответственный бизнес.
  • все задачи у операторов узкоспециализированные. Для каждого проекта формируется команда, ее обучают с учетом специфики задач клиента.
  • «Биорг» гарантирует не более одной ошибки на 100 полей с данными и фиксирует это в договоре. За каждую ошибку вне гарантии выплачивает фиксированную сумму или процент от стоимости распознавания документа.

Как это работает?

1. От заказчика в систему поступает скан документа. Или клиент заказчика напрямую загружает фотографию документа через приложение на Android.

2. Дальше за дело берутся 4 нейросети. Они определяет вид документа, выравнивают, нарезают на поля с текстом и распознают этот текст.

3. Если нет 99% уверенности в том, что поле распознано верно, его отправляют минимум двум операторам, которые должны прийти к единому мнению. Если консенсуса нет, подключается модератор, который выбирает один из предложенных вариантов или пишет третий.

В среднем операторы получают 4 млн заданий ежедневно. Одно задание — одно поле. Данные, которые проверили и распознали операторы, используются для дообучения нейросети.

4. Распознанный документ поступает заказчику в 1С, SAP, MS Dynamics и другие системы. Максимальное время обработки комплекта документов — 20 минут, но обычно 10–15 минут.

Что с безопасностью? «Биорг» использует облачные хранилища на территории России, от Mail.ru и Яндекса. Есть лицензии ФСТЭК и ФСБ на обработку и хранение информации.

Лицензия ФСТЭК действует бессрочно

Компания страхует свою ответственность перед клиентами в «Росгосстрахе». Если будет претензия от третьих лиц за разглашение персональных данных — заказчик получит компенсацию 0,5 млн рублей. Пока таких случаев не было.

Главное про гибридные решения для распознавания

1. Полезны крупным компаниям, которые обрабатывают тысячи документов в сутки: бухгалтерские, кадровые, банковские, страховые, анкеты.

2. Подходят для ускоренной оцифровки бумажных архивов.

3. В 2–3 раза снижают стоимость импорта данных из бумаги, сканов и фотографий в учетные и другие системы.

4. Работают круглосуточно и без выходных, производительность в 5–7 раз выше, чем у штатных операторов.

5. Умеют распознавать печатный, рукопечатный и рукописный текст.

6. Ошибаются реже штатных сотрудников: точность распознавания выше 99% независимо от качества документа.

Автор — руководитель Центра корпоративных инноваций компании «Первый Бит».

0
67 комментариев
Написать комментарий...
Ekaterina Dmitrieva

А какое ценообразование? Особенно интересно в сравнении с abby. И начиная с какого объема документов имеет смысл использовать сервис?

Ответить
Развернуть ветку
Александр Коробов

Добрый день! Модель ценообразования - за документ. По объему документов - в зависимости от типа. Рационально использовать если на процессе работы с документами задействовано более 2-х человек.

Ответить
Развернуть ветку
12 комментариев
Александр Коробов

Екатерина, если сравнивать с Abbyy, то нет оплаты за лицензии, нет длительного и дорогостоящего заведения шаблонов новых документов, а также нет необходимости в роли верификатора на стороне заказчика, чтобы исправлять ошибки, т.к. гарантированное качество распознавания выше 99%.

Ответить
Развернуть ветку
1 комментарий
Ivan Aleksandrov

Екатерина, добрый день!
У Dbrain стоимость зависит от объема документов, которые требуется обрабатывать. Как правило, мы рекомендуем начинать с 2 000 страниц в месяц. Связаться со мной и обсудить вашу задачу можно по почте [email protected] или оставив заявку на https://dbrain.io/

Ответить
Развернуть ветку
Семен Смирнов
И начиная с какого объема документов имеет смысл использовать сервис?

Это как просить у продавца на рынке совета, что купить
Такие расчеты все же лучше самим провести и дешевле и надежнее взять готовые ocr библиотеки и доработать под себя

Странно доверять данные своего бизнеса сторонним компаниям

Ответить
Развернуть ветку
1 комментарий
Виктор Соломоник

Круто. Скоро понадобится. Но цифры экономии в два раза как-то не впечатлили. Я честно рассчитывал, что меняя полностью ручной ввод на 95% нейросеть получу экономию в 4-10 раз. Мне кажется если бы нейросети гугла распознавали объекты в два раза дешевле чем вручную Гугл фото бы к примеру ничего бы не распознавал - слишком дорого

Ответить
Развернуть ветку
Ivan Aleksandrov

Виктор, сокращение расходов в два раза - ориентир, на который можно ориентироваться, когда большая часть потока документов рукописные и требуют проверки с помощью людей. Полностью автоматическое решение может дать еще большую экономию, которая зависит от масштаба бизнеса. Но для большинства бизнесов сократить расходы в 2 раза, при этом предоставив клиенту быстрый и удобный сервис – отличная возможность!

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Ольга Артюшкина
Автор

Согласна с вами. 

Ответить
Развернуть ветку
Igor Novák

Фигня всё это , пробовали использовать в бухгалтерии , но как оказалось нейросеть умеет только распознавать и ничего не смыслет в бухгалтерии . Мы даже сотрудничали с одним из стартапов в этой области , консультировали по бухгалтерии. Но в итоге оказалось что ручной труд дешевле и быстрее. Например обработать одну фактуру руками 10-30 секунд, а нейросеть распознавать только будет минуту , я уже молчу про весь массив , потом все фактуры нужно отредактировать , в здесь нужно, чтобы на экране был и оригинал фактуры и распознаные данные . Потом всё это нужно соединить с банком , и импортировать в бухгалтерский софт . Причём банк не импортируется , а фактуры криво  . Опять правим . В итоге вместо того чтобы вбитьф актуру и потом првоерить по выписке вы делаете одну и туже работу (контроль) несколько раз , да ещё и настройка каждоый фактуры занимает в бухсофте много времени . Я уже молчу , что никто не хочет брать на себя штрафы за ошибки автоматизации . короче этот стартап попытался несмотря на мою им помощь впарить мне нераббочий сервис . И мы расстались . 

Ответить
Развернуть ветку
Александр Коробов

Игорь, вы описываете ситуацию при применении коробочных решений, например Abbyy, когда на стороне заказчика действительно нужно править данные руками, потому что % распознавания около 90-92. Компания Биорг предоставляет сервис при котором вы получает обработанные данные с качеством распознавания выше 99%, распознанные данные передавать в систему заказчика в удобном для загрузки формате, а также обеспечить непрерывность в обработке, когда документы можно загружать пачками. Ну и конечно же, готовы брать на себя риски в виде штрафов, если они действительно привели нашего заказчика к финансовым потерям. Можем связаться и обсудить конкретную задачу. Спасибо

Ответить
Развернуть ветку
5 комментариев
Vlad Samusenko

Как назывался тот неудачный сервис и стартап?

Ответить
Развернуть ветку
1 комментарий
Виктор Кондратьев

Тот случай, когда нейросеть действительно может сделать за человека рутинную работу и автоматизировать простую нудную операция по дешифровке рукописного текста и ввода его в цифровой формат ! Очень нужное решение !!!

Ответить
Развернуть ветку
Ольга Артюшкина
Автор

Спасибо, за высокую оценку! Рады слышать. 

Ответить
Развернуть ветку
Ленин-гриб

У меня есть одно большое желание, чтобы те, кто сидели на госзарплате, говорили, что им все гуд и не шевелили жопой, наконец-то ею зашевелили. Скоро тырнут вас всех нахер и будет счастье, по крайней мере мое, личное 😁 Бюрократы 🤢

Ответить
Развернуть ветку
Vlad Samusenko

Пять раз перечитал. Кто бюрократы, нейросети?

Ответить
Развернуть ветку
2 комментария
Ольга Артюшкина
Автор

А точно эту статью хотели прокомментировать? не ошиблись?

Ответить
Развернуть ветку
Artem Magnitsky

Интересно узнать на практике, насколько круто программа обрабатывает плохие документы и сканы? Плохие - понятие растяжимое.

Ответить
Развернуть ветку
Ivan Aleksandrov

Артем, мы в Dbrain можем автоматически обрабатывать плохие документы, а с подключением людей - даже очень плохие :) Надо смотреть на примеры, для оценки присылайте примеры Ольге или мне на [email protected], скажем в какую категорию попадают ваши документы!

Ответить
Развернуть ветку
2 комментария
Ольга Артюшкина
Автор

Артем, нужно смотреть. «Биорг» например старые архивы документов оцифровывает, а там качество может быть очень плохое. Ну или попробуйте иногда рукописный текст распознать например как на картинке с бампером. Присылайте ваши примеры посмотрим.

Ответить
Развернуть ветку
Viktoria Butenko

Программа распознает текст и переводит его в печатный, а что дальше?
Допустим, у меня 100 анкет в день. Данные должны уйти в Amo crm.
Я могу в программе сделать связку с AMO?
Или программа выдает мне те же листы, только в оцифрованном виде?

Ответить
Развернуть ветку
Ольга Артюшкина
Автор

Виктория, да программа выдаст оцифрованные значения, например ФИО, дата и т.д. А при настройке интеграции или как вариант подключив дополнительно RPA вы сможете данные сразу в АМО получить.

Ответить
Развернуть ветку
Александр Коробов

Виктория, текст после распознавания в необходимом для заказчика формате (json, csv, excel и пр. передается заказчику в ИС.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
1 комментарий
Ivan Aleksandrov

Виктория, мы в Dbrain предоставляем простую интеграцию по API с любыми системами. Если система очень сложная - используем готовые интеграции с платформами по роботизации процессов. Мы - распознаем, а они - отправляют в любые системы.

Ответить
Развернуть ветку
OmegaMedical

А есть доступные решения по распознаванию небольшого текста которые подошли бы стартапам?

Ответить
Развернуть ветку
Двадцать Один

Тесаракт пробовали?

Ответить
Развернуть ветку
1 комментарий
Леонид Горячев

Yandex Vision попробуйте

Ответить
Развернуть ветку
Alexey Salyukov

Какая стоимость за 1 документ?

Ответить
Развернуть ветку
Ольга Артюшкина
Автор

Все зависит от того что это за документ? Какой текст печатный или рукописный? Сколько страниц нужно распознавать? Какой объем в год будет таких документов и т.д
Стоимость за страницу может начинаться от 3-х рублей и до 15 рублей у разных сервисов. 
Какой вам документ необходимо распознавать?

Ответить
Развернуть ветку
1 комментарий
Борат Язь

Чем-то подобным занимался. Интересно что используете для OCR? А ещё как происходит работа с документами с переменным layout, когда положение полей меняется из-за размера контента, и многостраничными?

Ответить
Развернуть ветку
Ivan Aleksandrov

В Dbrain используем OCR собственной разработки. Изображения обрабатываем каскадом нейросетевых алгоритмов, поэтому умеем распознавать документы переменного формата.

Ответить
Развернуть ветку
2 комментария
Aleksei Shabelskii

Dbrain + UiPath - сила! ) 

Ответить
Развернуть ветку
Ольга Артюшкина
Автор

Согласны, хороший вариант. Но и с PIX прекрасно работает тоже)

Ответить
Развернуть ветку
Михаил М

Продавать персональные данные стало ещё легче. Слава искусственному интеллекту!

Ответить
Развернуть ветку
Ivan Aleksandrov

Алексей, стоимость зависит от того, достаточно ли вам только автоматического распознавания или требуется проверка с помощью людей. Пришлите список ваших документов Ольге или мне на [email protected], мы соориентируем по стоимости. 

Ответить
Развернуть ветку
Андрей Андреевич

Столько текста...Попрошу уточнить: какую OCR использует Dbrain, а какую Биорг?

Ответить
Развернуть ветку
Глеб Корнеев

Привет! Dbrain использует OCR собственной разработки

Ответить
Развернуть ветку
64 комментария
Раскрывать всегда