Сервисы
Ольга Артюшкина

Как нейросети и люди распознают документы с точностью 99% и в 2–3 раза дешевле штатных сотрудников

Самые крутые нейросети распознают до 96% полей в документе. Если текст рукописный, точность может упасть до 20%: нейросети не сильны в военных билетах, трудовых книжках и извещениях о ДТП.

Рассказываю, как работают два гибридных решения, Dbrain и «Биорг», где часть работы по распознаванию достается людям, кому они будут полезны и что там с безопасностью.

Так начинается типичное заявление на ипотеку, в котором заемщику надо заполнить десятки полей не нескольких страницах:

Анкету нужно распечатать, расписаться, сфотографировать или отсканировать. Потом отправить в банк вместе с согласием об обработке персональных данных, справками с работы и другими документами. Это десятки страниц с данными, которые каким-то образом должны попасть в систему банка.

В 2020 году российские банки выдали больше 1,7 млн ипотечных кредитов, потребительских — на порядок больше. Страховые компании оформили миллионы полисов, по одному только ОСАГО они отработали примерно 2 млн заявлений на возмещение ущерба. Белый бизнес официально оформил на работу миллионы сотрудников с их паспортами, ИНН, трудовыми книжками, СНИЛС, дипломами и свидетельствами. Ритейл разбирался с миллионами бумажных счетов, накладных и поручений. В магазинах заполнили миллионы анкет в обмен на карту лояльности.

Каждый случай — это масса полей с текстом, которые нужно перенести в систему компании: имя, город, марка автомобиля, адрес регистрации, название поставщика, предложения по улучшению обслуживания в свободной форме. Надеюсь, вы представили масштаб проблемы.

Как компании переносят данные из сканов и бумаги в свои системы

Есть разные варианты импорта данные от клиентов, контрагентов и сотрудников.

1. Ручная классика. Большие компании содержат сто, двести, триста человек, чья работа — восемь часов в день перебивать цифры и слова в базы компании. Допустим, оператор обрабатывает комплект документов одного клиента за 40 минут — компании это обойдется примерно в 200 рублей с учетом всех расходов. Если компания растет, придется нанимать больше операторов и расширять офис.

Импорт бухгалтерских документов — отдельная история. Для многих бухгалтерий конец отчетного периода — время жестких переработок, потому что не все контрагенты работают через электронный документооборот (ЭДО).

2. ИИ + сотрудники компании. Нейросети с компьютерным зрением (OCR) распознают и импортируют данные. Сотрудникам остается сканировать бумажные документы для нейросетей и разбираться со сложными случаями. Хорошее IT-решение распознает до 96% полей в документах, пока это вроде потолка. Если нужно распознать текст от руки, идеал — 70–75% точности. В исключительных случаях 80%.

То есть сотрудники берут на себя всего 5–30% рутины. Это в среднем по больнице, но в любом случае компании уже нет смысла содержать такой большой штат, как при 100-процентном ручном вводе. И офис нужен не такой большой. Проблема в том, что сотрудники не всегда могут моментально отреагировать, когда нужно вмешаться, ведь их теперь мало. Это значит, к примеру, что компания не может гарантировать клиентам: «мы примем решение по вашему страховому случаю всего за 15 минут».

Возможно, в первый раз разбираться, что такое «Шруслер», придется сотруднику страховой компании. Потом нейросеть дообучится и справится сама — в базу попадет единственно возможный вариант Chrysler (фото: car72.ru)

3. ИИ + люди как часть IT-решения. В этом случае компания полностью передает распознавание изображений на аутсорсинг — чаще всего нужен только сканировщик, если есть бумажные документы. Точность распознавания выше 99%, независимо от того, печатный текст или рукописный. Скорость занесения данных из документов в системы компании — от 5 секунд до получаса.

На рынке есть несколько решений, обрабатывающих документы по такой схеме. На примере двух из них покажу, как это работает. В первом случае разметчики данных (будем называть их операторами) находятся в огромной внешней краудсорсинговой платформе, во втором — почти в штате разработчика и их в 100 раз меньше.

Dbrain: работает с Яндекс.Толокой

Общая схема работы решения на сайте Dbrain.io

Кто такие? Dbrain автоматизирует работу с документами с 2017 года. За плечами команды несколько продуктов на основе нейросетей — от чат-бота Icon8, моментально обрабатывающего фотографии, до приложения, контролирующего качество выпекания додо-пиццы. Год назад стартап прошел в Y Combinator, и основатели рассказали читателям VC.ru, как им это удалось.

Проект с распознаванием документов начался, когда команда поняла, что на рынке не хватает ИИ-решений, которые решают проблему импорта данных. А главная беда существующих решений — низкая точность распознавания сканов и фотографий плохого качества.

Клиенты редко присылают идеальные фотографии документов. Блики, тени, размытости, не тот угол, обрезанные края, плохой почерк (особенно в извещениях о ДТП) мешают нейросетям распознать документ, и приходится подключать сотрудников. Вроде польза от решения есть, но ожидание с реальностью не совпадают. Dbrain решил сделать продукт, который минимизирует участие клиента в процессе оцифровки документов.

Что обрабатывают? Основной документ Dbrain — паспорт России и стран ближнего зарубежья. Плюс еще три десятка документов, включая СНИЛС, патент на работу, счет-фактуру (вот полный список документов). Решение работает как в IT-контуре заказчика, так и в облаке.

Для кого? Будет полезно, если нужно:

  • ускорить регистрацию заявок клиентов. Например, при открытии банковского счета или подключении абонентов.
  • исключить опечатки при ручном вводе данных в систему.
  • радикально сократить время на решение по заявке клиента. Например, в крупной страховой компании с ручным вводом данных на урегулирование убытка уходило 3 дня, сейчас — 15 минут.
  • быстрее оформлять на работу, в том числе мигрантов. Особенно актуально для торговых сетей с высокой текучкой линейного персонала. Или для сервисов доставки, которые массово нанимают курьеров.

Какие фишки?

  • высокая точность распознавания некачественных изображений в разных форматах: сканы, фотографии с дешевых смартфонов, jpg.
  • может одновременно обрабатывать 500 пакетов документов без потери скорости и качества.
  • проверяет документы на подлинность, вычисляет фотошоп и сверяет фотографию в паспорте с селфи клиента.

Как работает решение?

1. Документ в электронном виде попадает в каскад нейросетей. Первая нейросеть определяет границы документа и его положение. Если нужно, выравнивает и вырезает по границе.

2. Вторая нейросеть классифицирует тип документа: паспорт, водительское удостоверение или просто картинка из интернета. Последнее отбраковывается.

3. Нейросеть находит поля с атрибутами, которые надо извлечь из документа: ФИО, место жительства, образование, адрес регистрации, марка автомобиля и так далее.

4. Нейросеть распознает («читает») данные из этих полей. Это ключевая процедура — до этого нейросети готовили документ к прочтению. Если сложностей с прочтением нет, пакет документов проходит весь каскад за секунды.

5. Если данные в поле не удалось распознать, поле отправляется в Яндекс.Толоку в виде задания. Обычно это рукописный текст. За задание параллельно берутся два человека, это нужно для повышения точности.

Оператору в Яндекс.Толоке достаточно ввести несколько букв и выбрать подсказку

Если оба распознали текст с одинаковым результатом, дело сделано. Когда есть разночтения, доступ к заданию получает еще один человек — и так до тех пор, пока не будет консенсуса. Нейросеть обучается на основе решений людей, через какое-то время она сама справится с аналогичным текстом.

В Яндекс.Толоке пакет документов находится от 3 до 15 минут.

6. Все распознанные поля склеиваются в единый документ, который поступает в систему клиента либо благодаря API (чаще всего), либо с помощью RPA от вендоров UiPath, Robin или PIX.

Что с безопасностью? В Яндекс.Толоку поступают разрозненные данные: кому-то достанется только имя, кому-то — только госномер автомобиля. Склеить их вместе пользователи Яндекс.Толоки не смогут. Когда распознанный документ поступает в систему заказчика, каждое поле этого документа удаляется из облака.

Все данные передаются по протоколам с криптозащитой, обрабатываются на серверах Selectel, отвечающим требованиям 152-ФЗ.

«Биорг»: используют собственный краудсорсинговый сервис

Кто такие? Позиционируют себя в качестве лидера оцифровки и распознавания персональных данных на российском рынке. За 2019 год обработали 30 млн документов. Первый проект — в 2017 году.

Работают с тяжелыми кастомными проектами. Берутся за то, от чего другие скорее всего вежливо откажутся. Например, оцифровали архивы ЗАГСов нескольких регионов, расшифровывая записи времен Великой Отечественной, сделанные химическим карандашом на газетах (бумага была дефицитной), а на Сахалине пришлось работать с документами на японском языке. Для «Теле2» за 2,5 месяца оцифровали бумажный 15-тонный архив.

Что обрабатывают? Проще сказать, что не обрабатывают, но в общем объеме негосударственных проектов лидируют анкеты клиентов, кадровая и бухгалтерская документация. Научили нейросети распознавать рукописный текст с точностью до 75%.

Работают со сложными для нейросетей документами — трудовой книжкой и военным билетом, где нормальному распознаванию мешают штампы поверх текста и звезды.

Пятиконечные звезды, которые почти на каждой странице, «слепят» нейросети. Точность автоматического распознавания военного билета обычно не выше 20–30% (фото: «Тинькофф-журнал»)

Для кого? Решение нужно компаниям, которые имеют дело с большим объемом первички, анкет от клиентов и документов от новых сотрудников. Например, будет полезно, когда нужно оформлять тысячи новых сотрудников — система в разы быстрее обрабатывает комплекты документов, делает это точнее и дешевле людей.

Похожий расчет экономического эффекта и у Dbrain: затраты на обработку документов, не только кадровых, снижаются в 2–3 раза (источник: beorg.ru)

Наиболее популярная услуга, если судить по проектам, — обработка анкетных данных в рамках программ лояльности и исследований рынка. За этим обращались, в частности, S7, IKEA, «Вкусивилл», «Пятерочка», «Лента», «Окей», «Адамас», «Детский мир», Natura Siberica, «Якитория».

Какие фишки?

  • высокая производительность: способны обработать до 5 млн документов в сутки.
  • собственная краудсорсинговая платформа, объединяющая 60 тысяч операторов, которые работают по ГПХ или в качестве самозанятых. Компания часто отмечает, что ведет социально ответственный бизнес.
  • все задачи у операторов узкоспециализированные. Для каждого проекта формируется команда, ее обучают с учетом специфики задач клиента.
  • «Биорг» гарантирует не более одной ошибки на 100 полей с данными и фиксирует это в договоре. За каждую ошибку вне гарантии выплачивает фиксированную сумму или процент от стоимости распознавания документа.

Как это работает?

1. От заказчика в систему поступает скан документа. Или клиент заказчика напрямую загружает фотографию документа через приложение на Android.

2. Дальше за дело берутся 4 нейросети. Они определяет вид документа, выравнивают, нарезают на поля с текстом и распознают этот текст.

3. Если нет 99% уверенности в том, что поле распознано верно, его отправляют минимум двум операторам, которые должны прийти к единому мнению. Если консенсуса нет, подключается модератор, который выбирает один из предложенных вариантов или пишет третий.

В среднем операторы получают 4 млн заданий ежедневно. Одно задание — одно поле. Данные, которые проверили и распознали операторы, используются для дообучения нейросети.

4. Распознанный документ поступает заказчику в 1С, SAP, MS Dynamics и другие системы. Максимальное время обработки комплекта документов — 20 минут, но обычно 10–15 минут.

Что с безопасностью? «Биорг» использует облачные хранилища на территории России, от Mail.ru и Яндекса. Есть лицензии ФСТЭК и ФСБ на обработку и хранение информации.

Лицензия ФСТЭК действует бессрочно

Компания страхует свою ответственность перед клиентами в «Росгосстрахе». Если будет претензия от третьих лиц за разглашение персональных данных — заказчик получит компенсацию 0,5 млн рублей. Пока таких случаев не было.

Главное про гибридные решения для распознавания

1. Полезны крупным компаниям, которые обрабатывают тысячи документов в сутки: бухгалтерские, кадровые, банковские, страховые, анкеты.

2. Подходят для ускоренной оцифровки бумажных архивов.

3. В 2–3 раза снижают стоимость импорта данных из бумаги, сканов и фотографий в учетные и другие системы.

4. Работают круглосуточно и без выходных, производительность в 5–7 раз выше, чем у штатных операторов.

5. Умеют распознавать печатный, рукопечатный и рукописный текст.

6. Ошибаются реже штатных сотрудников: точность распознавания выше 99% независимо от качества документа.

Автор — руководитель Центра корпоративных инноваций компании «Первый Бит».

{ "author_name": "Ольга Артюшкина", "author_type": "self", "tags": ["\u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u0435","\u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0438","\u0438\u0438","ocr","dbrain","beorg"], "comments": 64, "likes": 51, "favorites": 119, "is_advertisement": false, "subsite_label": "services", "id": 201334, "is_wide": false, "is_ugc": true, "date": "Wed, 27 Jan 2021 14:57:51 +0300", "is_special": false }
0
64 комментария
Популярные
По порядку
Написать комментарий...
4

А какое ценообразование? Особенно интересно в сравнении с abby. И начиная с какого объема документов имеет смысл использовать сервис?

Ответить
2

Добрый день! Модель ценообразования - за документ. По объему документов - в зависимости от типа. Рационально использовать если на процессе работы с документами задействовано более 2-х человек.

Ответить
0

Еще вопрос. А вы только с документами работаете? Можно ваш краудсорс использовать для распознавания объектов? Когда, например, наша нейросеть что-то распознала, но надо перепроверить?

Ответить
1

Екатерина, нашу платформу можно использовать для решения разных задач: разметка дата-сетов, обучение НС, транскрибация аудио- видеофайлов, модерация контента и т.д. Когда НС не справилась, то включается краудсорс.

Ответить
0

 А какой сейчас % ошибок распознавания вашей нейросетью? И что перепроверять нужно?

Ответить
0

Я пока гипотетически пытаюсь понять на будущее, есть ли такая возможность. Идея очень понравилась - нивелировать ошибки распознавания участием людей, тем более если у вас это уже организовано. У нас платформа по распознаванию - распознаем и лица, и эмоции, и на производстве от наличия касок до дефектов изделий.

Ответить
0

Ох уж этих платформ развелось (это я по-доброму)).

Ответить
0

Владислав, а какие платформы Вы бы навзали?

Ответить
1

Ну навскидку: Яндекс Вижн, Инспектор Клауд, Фейсметрик, Энфейс, Энивижн, Оптимум Скайнет, Луна, ЭнтехЛаб, Интелледженс Ритейл. И хорошо, пусть их больше будет.

Ответить
0

Спасибо. Я имел в виду именно тех, кто фокусируется на промышленной безопасности с ИИ

Ответить
0

Значит, я не понял вопроса, я в целом про распознавание. А у меня к вам как представителю ABBYY такой вопрос: в каких решениях для распознавания используется ваша технология?

Ответить
0

Наш фокус в части распознавания - извлечение текстовой информации из любых источников, в основном это сканы и фото документов, в существенно меньшей степени - видео. Для документов применяем как OCR, так и NLP, т.е. в том числе работаем с любым связным неструктурированным текстом. Существенная часть решений - корпоративные проекты по массовой обработке документов самых разных типов - от бухгалтерии и ID-шек до уставных документов и публикаций СМИ. Присутствуем практический в каждой вертикали - банки, госуха, ритейл, телеком, промышленность и т.д. Помимо распознвания предлагаем также поиск с OCR и NLP.

Сейчас компания предлагает уже не только распознавание, а комплекс продуктов и подходов к цифровизации в целом - process mining и task mining для определения участков автоматизации (на основе цифровых следов и контента) и контроля за её иполнением и конкретные решения по end-to-end обработке документов.

Ответить
0

Похоже, я неправильно спросил ). Как называются сервисы, где используется ваш OCR (или, может, ICR, NLP)? Допустим, стартап делает сервис для обработки документов. Разработал и обучил нейросети (модели) для разных этапов обработки, интеграцию с учетками и прочее и говорит: "а вот модуль распознавания делать не будем, лучше поставим ABBYY". Точно знаю, что такое практикуется, но хочется узнать, у каких сервисов стоит ваш модуль?

Ответить
1

Если не очень глубоко уходить, то наше распознавание (и извлечение) есть в мобильных приложения большинства банков: Сбер, Альфа, Точка, Модульбанк и других. Оно же используется в автоматах выдачи SIM-карт и регистрации SIM-карт через приложение GoldemSIM. РЖД используют наши технологии в своем мобильном приложении для покупки билетов. Модуль OCR для своих DLP-систем ипользуют Infowatch, Searchinform, Solar, Zecurion. Если про NLP, то, например, это корп.проекты Сбера (выдача кредита юрлицам за 7 минут, мониторинг новостей о банках-контрагентах) или в "Точке" - обработка запросов гос.организаций и работа клиентской поддержки. В "Сбербанк Лизинге" и РайффайзенБанке наши технологии используются для автоматического сравнения договоров. 

OCR ABBYY себе встраивают прямо в устройства производители сканеров и МФУ Fujitsu, Epson, Hewlett Packard Enterprise, RICOH, Xerox и т.д.

Ответить
2

Екатерина, если сравнивать с Abbyy, то нет оплаты за лицензии, нет длительного и дорогостоящего заведения шаблонов новых документов, а также нет необходимости в роли верификатора на стороне заказчика, чтобы исправлять ошибки, т.к. гарантированное качество распознавания выше 99%.

Ответить
0

Было бы справедливо сказать, что у Abbyy есть продукты разной ценовой категории - от простейшего OCR SDK до кастомизируемого клиент-серверного enterprise-конвейера для потоковой обработки документов любых форматов и типов (в т.ч. неструктурированных), где распознавание и извлечение - одна из десятка задач. Верификация опцональна, а разработка нужна под уникальные документы и требования и может вестись силами клиента, в т.ч. no/low-code с использованием ML.

Ответить
2

Екатерина, добрый день!
У Dbrain стоимость зависит от объема документов, которые требуется обрабатывать. Как правило, мы рекомендуем начинать с 2 000 страниц в месяц. Связаться со мной и обсудить вашу задачу можно по почте ia@dbrain.io или оставив заявку на https://dbrain.io/

Ответить
0

И начиная с какого объема документов имеет смысл использовать сервис?

Это как просить у продавца на рынке совета, что купить
Такие расчеты все же лучше самим провести и дешевле и надежнее взять готовые ocr библиотеки и доработать под себя

Странно доверять данные своего бизнеса сторонним компаниям

Ответить
0

Семен, мы больше 3 лет развиваем свой сервис, научились распознавать даже российский рукописный текст с очень высоким качеством, можете сами проверить. Если подскажете где взять готовые OCR библиотеки, которые смогут достичь хотя бы близкого к нашему качества распознавания и полностью решить задачи бизнеса по обработке данных, будем очень благодарны :) К тому же, наша система может быть полностью интегрирована в контур клиента и никакие данные не буду уходить на нашу сторону, так что никаких проблем с передачей данных нет

Ответить
4

Круто. Скоро понадобится. Но цифры экономии в два раза как-то не впечатлили. Я честно рассчитывал, что меняя полностью ручной ввод на 95% нейросеть получу экономию в 4-10 раз. Мне кажется если бы нейросети гугла распознавали объекты в два раза дешевле чем вручную Гугл фото бы к примеру ничего бы не распознавал - слишком дорого

Ответить
1

Виктор, сокращение расходов в два раза - ориентир, на который можно ориентироваться, когда большая часть потока документов рукописные и требуют проверки с помощью людей. Полностью автоматическое решение может дать еще большую экономию, которая зависит от масштаба бизнеса. Но для большинства бизнесов сократить расходы в 2 раза, при этом предоставив клиенту быстрый и удобный сервис – отличная возможность!

Ответить
2

Вот, сразу видео полезный продукт, а не то, что обычно любят обмазать нейросетями 

Ответить
1

Согласна с вами. 

Ответить
0

Фигня всё это , пробовали использовать в бухгалтерии , но как оказалось нейросеть умеет только распознавать и ничего не смыслет в бухгалтерии . Мы даже сотрудничали с одним из стартапов в этой области , консультировали по бухгалтерии. Но в итоге оказалось что ручной труд дешевле и быстрее. Например обработать одну фактуру руками 10-30 секунд, а нейросеть распознавать только будет минуту , я уже молчу про весь массив , потом все фактуры нужно отредактировать , в здесь нужно, чтобы на экране был и оригинал фактуры и распознаные данные . Потом всё это нужно соединить с банком , и импортировать в бухгалтерский софт . Причём банк не импортируется , а фактуры криво  . Опять правим . В итоге вместо того чтобы вбитьф актуру и потом првоерить по выписке вы делаете одну и туже работу (контроль) несколько раз , да ещё и настройка каждоый фактуры занимает в бухсофте много времени . Я уже молчу , что никто не хочет брать на себя штрафы за ошибки автоматизации . короче этот стартап попытался несмотря на мою им помощь впарить мне нераббочий сервис . И мы расстались . 

Ответить
4

Игорь, вы описываете ситуацию при применении коробочных решений, например Abbyy, когда на стороне заказчика действительно нужно править данные руками, потому что % распознавания около 90-92. Компания Биорг предоставляет сервис при котором вы получает обработанные данные с качеством распознавания выше 99%, распознанные данные передавать в систему заказчика в удобном для загрузки формате, а также обеспечить непрерывность в обработке, когда документы можно загружать пачками. Ну и конечно же, готовы брать на себя риски в виде штрафов, если они действительно привели нашего заказчика к финансовым потерям. Можем связаться и обсудить конкретную задачу. Спасибо

Ответить
0

Пачками это хорошо, но что если в пачке будут многостраничные фактуры. А если в одной фактуре будут и службы и матерьиал. Что-то с НДС что-то нет. Я просто сам участвовал в создании УИ для редактирования фактур после распознавания , и знаю как это не просто и в итоге неудобно . 

Ответить
2

Игорь, то, что Вы описали, прекрасно укладывается в стандартную функциональность работы с СФ на платформе Abbyy FlexiCapture. И многостраничные (классификация и сборка документов из потока страниц, даже если идут вперемешку разные типы, сборка в комплекты по первичным ключам), и с разными видами позиций, и с НДС, и без - всё в одном определении документа. Сюда же можно прикрутить бизнес-правила - проверка арифметики или что посложнее , сверка номенклатур, реквизитов - либо no-code, либо скрипты. Сравнивать оригинал с распознанными данными опционально, но можно при помощи специализированного клиента и горячих кливиш.

Ответить
0

У нас разнообразные задачи. Мы бухгалтерская фирма которая оказывает услуги на оутсорсинге. После близкого знакомства с подобными системами я пришел к выводу , что единственное , что я могу применить - автоматическое раскладывание фактур по дате , для последующей распечатки. И наверное все. Все остальное руками делается в разы быстрее. Даже при импорте , в бухпрограмму, все равно придется расставлять проводки и другие мелочи, а это тоже по времени дольше,  чем тупо скопировать уже имеющуюся фактуру. 

Ответить
0

Игорь, предлагаю обсудить. Нужно оценивать и смотреть на объём документов в месяц/год/квартал которые вы хотели бы доверить сервису OCR. О каком количестве документов сейчас идет речь и сколько сотрудников их сейчас обрабатывает?

Ответить
0

Пока нет смысла. Ибо большинство народа не будет сканировать документы даже несмотря на эпидемиологические ограничения , особенно многостраничные фактуры за стройматериал, а потом ещё все загружать в нужную папку с облако. А те что есть, с кучей всяких нюансов , которые меняются постоянно. Да и вам не рекомендую в это лезть. Если даже местные не могут все настроить как надо. 

Ответить
0

Как назывался тот неудачный сервис и стартап?

Ответить
1

https://booke.ai/ это не единственный стартап по автоматизации распознавания в Чехии. Мы с ними начали работать, так как они русскоговорящие , и ещё к тому делали UI  по моим рекомендациям.  Я бы может и сотрудничал с ними дальше , но они вместо того , чтобы использовать мои знания дальше на халяву, решили впрарить подписку. Не логично. 

Ответить
1

Тот случай, когда нейросеть действительно может сделать за человека рутинную работу и автоматизировать простую нудную операция по дешифровке рукописного текста и ввода его в цифровой формат ! Очень нужное решение !!!

Ответить
0

Спасибо, за высокую оценку! Рады слышать. 

Ответить
–3

У меня есть одно большое желание, чтобы те, кто сидели на госзарплате, говорили, что им все гуд и не шевелили жопой, наконец-то ею зашевелили. Скоро тырнут вас всех нахер и будет счастье, по крайней мере мое, личное 😁 Бюрократы 🤢

Ответить
1

Пять раз перечитал. Кто бюрократы, нейросети?

Ответить
4

По моему, человек порадовался, что такие сети заменят бюрократов. А пока этого не произошло, автор поста надеется, что бюрократы в испуге перед конкуренцией с нейросетями зашевелятся и начнут работать быстрее.

Ответить
1

А вот это смешно, если такой смысл комментария. Как же они сами себя заменят. Но как минимум судей на нейросети давно пора поменять в России.

Ответить
2

А точно эту статью хотели прокомментировать? не ошиблись?

Ответить
0

Интересно узнать на практике, насколько круто программа обрабатывает плохие документы и сканы? Плохие - понятие растяжимое.

Ответить
1

Артем, мы в Dbrain можем автоматически обрабатывать плохие документы, а с подключением людей - даже очень плохие :) Надо смотреть на примеры, для оценки присылайте примеры Ольге или мне на ia@dbrain.io, скажем в какую категорию попадают ваши документы!

Ответить
0

Здорово! Пока нет возможности, но буду иметь в виду. Спасибо! 

Ответить
0

... типа можем с подключением людей это ни о чём... предположим, что никто не против ведения трудовых в электронном виде... а почему нет... но таки на практики оказалось нет возможности и пришлось кадровикам таки опять собирать с люде заявления на согласие ручного ведения трудовых... и это таки тотальный случай... выдавать желаемое за действительное это только прикольно... сравниваться с ИИ Яна ещё прикольнее... этот то сервис имеет даже в рф тотальное использование... бредовая статья... все трудности давно всем известны, как и то, что кодировщики нейросетей типа в стране не котируются а уж в мире и подавно... т.е. отстой застоя в стране по этой теме... уже многие годы существуют системы электронного документооборота, но таки респонденты по-прежнему шлют друг другу заказные и простые письма с первичкой...

Ответить
0

Артем, нужно смотреть. «Биорг» например старые архивы документов оцифровывает, а там качество может быть очень плохое. Ну или попробуйте иногда рукописный текст распознать например как на картинке с бампером. Присылайте ваши примеры посмотрим.

Ответить
0

Программа распознает текст и переводит его в печатный, а что дальше?
Допустим, у меня 100 анкет в день. Данные должны уйти в Amo crm.
Я могу в программе сделать связку с AMO?
Или программа выдает мне те же листы, только в оцифрованном виде?

Ответить
1

Виктория, да программа выдаст оцифрованные значения, например ФИО, дата и т.д. А при настройке интеграции или как вариант подключив дополнительно RPA вы сможете данные сразу в АМО получить.

Ответить
1

Виктория, текст после распознавания в необходимом для заказчика формате (json, csv, excel и пр. передается заказчику в ИС.

Ответить
0

мне каж данные должны в табличку попасть, табличка в виде гугл таблицы и потом из гугл таблицы в амо попадает жта штука уже есть из коробки

Ответить
0

Форматы в которых можно данные выгружать, например:                                Для изображений: TIFF, PNG, JPEG, PDF.
Для данных: CSV, JSON, XLSX/XLS (Excel), XML.
А потом уж какая интеграция нужна можно смотреть на базу куда необходимо данные передавать у всех по разному.

Ответить
0

Виктория, мы в Dbrain предоставляем простую интеграцию по API с любыми системами. Если система очень сложная - используем готовые интеграции с платформами по роботизации процессов. Мы - распознаем, а они - отправляют в любые системы.

Ответить
0

А есть доступные решения по распознаванию небольшого текста которые подошли бы стартапам?

Ответить
1

Тесаракт пробовали?

Ответить
0

Нет. Посмотрим насколько сложно прикрутить. Спасибо

Ответить
0

Какая стоимость за 1 документ?

Ответить
0

Все зависит от того что это за документ? Какой текст печатный или рукописный? Сколько страниц нужно распознавать? Какой объем в год будет таких документов и т.д
Стоимость за страницу может начинаться от 3-х рублей и до 15 рублей у разных сервисов. 
Какой вам документ необходимо распознавать?

Ответить
1

А нейросети не пофиг какой там документ? Почему цена разная?

Ответить
0

Чем-то подобным занимался. Интересно что используете для OCR? А ещё как происходит работа с документами с переменным layout, когда положение полей меняется из-за размера контента, и многостраничными?

Ответить
0

В Dbrain используем OCR собственной разработки. Изображения обрабатываем каскадом нейросетевых алгоритмов, поэтому умеем распознавать документы переменного формата.

Ответить
0

Потестить можно ваш ocr?

Ответить
0

Можно, пишите на ia@dbrain.io, выдадим доступ

Ответить
0

Dbrain + UiPath - сила! ) 

Ответить
0

Согласны, хороший вариант. Но и с PIX прекрасно работает тоже)

Ответить
0

Продавать персональные данные стало ещё легче. Слава искусственному интеллекту!

Ответить
0

Алексей, стоимость зависит от того, достаточно ли вам только автоматического распознавания или требуется проверка с помощью людей. Пришлите список ваших документов Ольге или мне на ia@dbrain.io, мы соориентируем по стоимости. 

Ответить

Комментарии

null