Всё ещё сравниваете документы вручную? А могли бы доверить это искусственному интеллекту

Продолжу знакомить сообщество vc.ru с прелестями и возможностями применения искусственного интеллекта в работе с документами. Пару постов назад я разбирал кейс по умному поиску штампов на документах. А в этом материале хочу осветить еще один интересный кейс – как перестать сверять версии документов вручную и доверить это искусственному интеллекту.

Всё ещё сравниваете документы вручную? А могли бы доверить это искусственному интеллекту

К нам обратился клиент, который столкнулся с проблемой: из-за того, что сотрудники договорного отдела вручную сверяли версии документов, процесс согласования затягивался, и компания рисковала потерять деньги.

Рассмотрим ситуацию подробно.

Сотрудник юридического или договорного отдела работает с договорами, допсоглашениями и прочими официальными документами. Типичная ситуация, когда с его стороны документ подписан, он отправляет его контрагенту и спустя какое-то время получает от него подписанный экземпляр в формате скана или фотографии, в некоторых случаях бумажный оригинал. Теперь нужно сравнить присланную версию с отправленной: найти различия, новые пункты, примечания и прочее.

Таких документов в месяц может быть от 10 до 1000, на каждый в среднем уходит 10-15 минут. Где-то после десятого документа в день глаза предательски устают, и сотрудник перестает замечать важные моменты. В практике клиента был прецедент, когда во время сверки сотрудник не заметил ключевое исправление по срокам оплаты, и документ приняли. В итоге компания понесла потери на несколько миллионов рублей. Одна допущенная ошибка стоила очень дорого.

Решить проблему можно, выделив отдельного сотрудника на операцию по сверке. Но тогда придется увеличивать фонд оплаты труда, создавать рабочее место, настраивать процессы и т.д. Правда, и в этом случае не будет гарантии, что сотрудник не утомится и не сделает ошибку.

Наша команда по развитию AI-продуктов Directum обсудила с клиентом особенности ситуации, и вместе мы пришли к выводу, что нужно выбрать инновационный подход и передать сравнение документов искусственному интеллекту.

Кто-то скажет, что Word уже давно умеет сравнивать документы, и я соглашусь. Но Word не умеет сравнивать документы разного формата, например, текстовый .doc и скан в .pdf. А именно это было ключевым требованием клиента.

В общем, мы подобрали несколько инструментов для интеллектуального сравнения документов и запустили пилотный проект.

Первый тест комом

В первую очередь нужно было проверить, насколько качественно извлекается текстовый слой при сравнении документов. Мы взяли существующую модель из набора интеллектуальных сервисов Directum Ario. Не дорабатывая и не настраивая её, провели тестовое сравнение нескольких десятков документов. С учетом того, что мы не совершали лишних действий, результат получился хороший. Но общий показатель качества всё равно нас не удовлетворил 😀

Почему нам не понравилось качество сравнения?

Во-первых, верхний и нижний колонтитул попадали в текстовый слой, и это снижало итоговое качество сверки:

Всё ещё сравниваете документы вручную? А могли бы доверить это искусственному интеллекту

Во-вторых, в начале каждой страницы повторялись шапки таблиц:

Всё ещё сравниваете документы вручную? А могли бы доверить это искусственному интеллекту

Также было непонятно, какой документ из двух считать эталоном (первоначальной версией) и как сравнивать штампы и наличие подписей.

В общем, итоги первой итерации нашу команду и клиента не удовлетворили, и мы запланировали работы по улучшению.

Как мы повысили качество сравнения документов

1. Исключили использование колонтитулов. Для этого добавили правила и зоны по текстовому слою. В итоге качество сравнения выросло на 14%.

2. Над таблицами пришлось попотеть. Сложно было понять бизнес-потребность, так как в рабочей группе клиента были те, для кого важна шапка в длинных таблицах, и те, для кого ее наличие необязательно. В итоге пришли к соглашению: будем обрабатывать и передавать на сравнение только первое упоминание шапки в таблице, а на последующих страницах не учитывать ее и соответственно не извлекать из нее данные. В итоге качество сравнения улучшилось еще на 7%.

В процессе тестирования появилась гипотеза – некоторые сотрудники случайно могут сравнить совершенно разные документы. В итоге мы настроили так, чтобы при сравнении разных документов сервис отказывался это делать и выдавал уведомление «Данные документы абсолютно разные и не могут быть корректно сравнены».

Итогом наших работ по улучшению качества сравнения остались довольны клиент и команда.

Кстати, сравнивать искусственный интеллект Directum может совершенно разные форматы: doc, docx, pdf, tiff, jpeg, png и др.

Как сейчас проходит сравнение документов в интеллектуальных сервисах Directum

1. Исходный документ находится в базе данных, пользователям доступны метаданные (текстовый слой и реквизиты) с его содержимым.

2. Новый документ, поступающий от контрагента, проходит процесс извлечения текстового слоя и классификации. Метаданные извлекаются из содержимого.

3. Теперь у двух сущностей есть метаданные для сравнения. Первый текст накладывается на второй.

4. В результате сравнения пользователь видит:

  • что нового добавили – будет подсвечено зеленым цветом;
  • что изменили – будет выделено желтым;
  • что удалили – будет подсвечено красным.
Желтым подсвечиваются места, измененные второй стороной
Желтым подсвечиваются места, измененные второй стороной

Сколько денег и часов экономит искусственный интеллект?

Применив наши стандартные модели сравнения к кейсу клиента, мы решили его задачу. В доказательство привожу метрики:

  • в 5 раз сократили время на операцию по сверке разных форматов документов – с 10 минут до 2-х;
  • исключили рутину и автоматизировали процесс: менеджер сразу получает результат сравнения;
  • избавились от человеческого фактора (уставания, отвлечения и прочего).

Для того чтобы оценить эффект, можно взять часовую ставку специалиста. По данным сервиса zarplan.com, в среднем, зарплата юриста по России – 59 тыс. рублей. Следовательно, при 168-часовом рабочем месяце часовая ставка специалиста – 351 рубль. Исходя из полученных данных и зная, как долго может занимать процедура по сверке документов, мы получаем:

Стоимость процесса сравнения двух документов разных форматов, если это делает человек, – 58 рублей.

Стоимость того же самого процесса, если его выполняет искусственный интеллект, – 11 рублей.

И эти расчеты можно применить к любой рутинной операции.

В заключение хочу отметить, что сейчас сравнение документов — это полностью коробочное решение в варианте поставки Directum RX Intelligence. Сразу после установки вам уже доступен весь функционал для сравнения официальных писем, договоров, дополнительных соглашений, актов и прочих документов. Подробнее можно узнать по ссылке.

Если данная задача для вас актуальна, и вы видите в нашем подходе решение, свяжитесь со мной любым удобным способом.

11
1 комментарий

Илья, здравствуйте! Дублирую в вашу свежую статью вопросы про ваше решение по распознаванию документов из другой темы.

1) вы писали, что у вас 93-97% качество распознавания. Скажите это качество по полям или по символам? На чем измеряли (фото, сканы)? Были ли в выборке пережатые сканы с МФУ? На каком количестве страниц вы делали замеры?

2) Вы писали что используете для распознавания символов OCR от Google - Tesseract и другие открытые OCR. По моему мнению именно технология OCR это 95% всего процесса распознавания. Я имею в виду что именно OCR это основной элемент системы распознавания. Например, сколько вложено в Tesseract разработчиками и потом Google даже сложно сказать. Может 10+ млн долларов, а может и сильно больше. Думаю вы понимаете, что именно поэтому в мире работающих OCR всего штук 10, а может и меньше. Поэтому когда в ПО чужая OCR говорить что нет зависимости странно. Сегодня открытые, а завтра в текущих реалиях закрытые.

Можете рассказать сколько человеко-лет вы вложили в разработку? Кто из учёных курирует разработку?

Ответить