«Раскрыть мощь документов»: создатель формата XML предлагает разобраться в неструктурированных данных с помощью ИИ

85% накопившихся документов внутри организации — это разрозненные данные, которые можно сделать полезными, считает основатель Docugami Жан Паоли.

Его придумали бывшие разработчики Microsoft во главе с Жаном Паоли, который называет себя «одержимым документами». Он был соавтором формата XML и возглавлял подразделение Microsoft Open Technologies.

Там он запустил формат Office Open XML (.docx, .xlsx), в котором, помимо самого документа, офисные приложения начали хранить графику, данные, XML-текст в открытом виде.

В 2018 году Паоли ушел из Microsoft и начал работу над Docugami — «умным» инструментом на базе технологий искусственного интеллекта, который структурирует неструктурированные данные и «раскрывает всю мощь документов».

Жан Паоли
Жан Паоли

По мнению Паоли, около 85% данных в бизнесе «тёмные» — потенциально полезная информация, которая теряется из-за растущего объёма и способов её получения. В корпоративных базах находятся лишь 15% данных.

Паоли называет это явление «дисфункцией документов». Она затрагивает практически все типы компаний — от финансовых и медицинских до правительственных и арендных:

  • У банков тысячи кредитных документов, но нулевая прозрачность условий, которые влияют на стоимость кредитов.
  • Госучреждениям с сотнями проектных договоров необходимо проверять их и обновлять согласно изменениям в законодательстве.
  • Фирмы по работе с коммерческой недвижимостью держат сотни контрактов, но не имеют представления обо всех финансовых обязательствах.
  • Врачи в клиниках пишут разрозненные заметки о пациентах, которые сложно объединить в общую картину.

Docugami призван изменить обработку данных внутри компаний, заявляют создатели. Он объединяет глубокое обучение, обработку естественного языка, байесовский, эволюционный и другие методы ИИ, чтобы размечать данные внутри документов любого формата.

Сервис умеет анализировать большие объёмы документов, классифицировать их по типу и функциям, определять общие и уникальные элементы.

Вместо работы с «большими данными» нам нужен ИИ, который понимает «малые данные» — уникальные наборы бизнес-документов, характерных для конкретных компаний. Таких «малых данных» много, и они разные в организациях.

Поэтому нужны алгоритмы, достаточно «умные», чтобы распознавать данные в конкретных документах даже не в компании, а в её подразделениях, в потенциально небольших объёмах и с минимальным обучением и разработкой.

Жан Паоли, глава Docugami

Docugami, по собственным словам, анализирует и вытаскивает полезные данные из любых типов документов. Можно загрузить партнёрские соглашения, финансовые бумаги, договоры и найти в них даты, платежи, условия и сроки — и сгенерировать новые документы с «полезной» информацией или передать данные, к примеру, в CRM.

«Раскрыть мощь документов»: создатель формата XML предлагает разобраться в неструктурированных данных с помощью ИИ

Настройка Docugami в облаке занимает около получаса, в которые входит «доработка» алгоритмов под конкретный бизнес (сервис работает по модели SaaS). Руководители обещают, что обработка данных конфиденциальна и алгоритмы ИИ не задействуют полученные знания на документах других компаний.

В мае 2020 года Docugami привлёк $10 млн на посевной стадии — во главе раунда стоял венчурный фонд SignalFire, также принял участие украинский стартап Grammarly. Оценка стартапа не раскрывается.

К ноябрю 2020 года закрытой бета-версией Docugami воспользовалось несколько десятков организаций в различных отраслях, отмечают в сервисе. В 2021 году сервис запустит публичную версию. Пока создатели не рассказали подробностей о монетизации сервиса.

3232
6 комментариев

похож на азербайджанца %)

4

На американца азербайджанского происхождения.

создатель формата XML предлагает разобраться в неструктурированных данных с помощью ИИ

Судя по тому, какими обычно получаются документы на XML, данные, может, и станут более структурированными, но вряд ли более понятными. По крайней мере, если это обещает автор XML.

3

Причем здесь ИИ, если достаточно структуризации?