«Раскрыть мощь документов»: создатель формата XML предлагает разобраться в неструктурированных данных с помощью ИИ Статьи редакции

85% накопившихся документов внутри организации — это разрозненные данные, которые можно сделать полезными, считает основатель Docugami Жан Паоли.

Его придумали бывшие разработчики Microsoft во главе с Жаном Паоли, который называет себя «одержимым документами». Он был соавтором формата XML и возглавлял подразделение Microsoft Open Technologies.

Там он запустил формат Office Open XML (.docx, .xlsx), в котором, помимо самого документа, офисные приложения начали хранить графику, данные, XML-текст в открытом виде.

В 2018 году Паоли ушел из Microsoft и начал работу над Docugami — «умным» инструментом на базе технологий искусственного интеллекта, который структурирует неструктурированные данные и «раскрывает всю мощь документов».

Жан Паоли

По мнению Паоли, около 85% данных в бизнесе «тёмные» — потенциально полезная информация, которая теряется из-за растущего объёма и способов её получения. В корпоративных базах находятся лишь 15% данных.

Паоли называет это явление «дисфункцией документов». Она затрагивает практически все типы компаний — от финансовых и медицинских до правительственных и арендных:

  • У банков тысячи кредитных документов, но нулевая прозрачность условий, которые влияют на стоимость кредитов.
  • Госучреждениям с сотнями проектных договоров необходимо проверять их и обновлять согласно изменениям в законодательстве.
  • Фирмы по работе с коммерческой недвижимостью держат сотни контрактов, но не имеют представления обо всех финансовых обязательствах.
  • Врачи в клиниках пишут разрозненные заметки о пациентах, которые сложно объединить в общую картину.

Docugami призван изменить обработку данных внутри компаний, заявляют создатели. Он объединяет глубокое обучение, обработку естественного языка, байесовский, эволюционный и другие методы ИИ, чтобы размечать данные внутри документов любого формата.

Сервис умеет анализировать большие объёмы документов, классифицировать их по типу и функциям, определять общие и уникальные элементы.

Вместо работы с «большими данными» нам нужен ИИ, который понимает «малые данные» — уникальные наборы бизнес-документов, характерных для конкретных компаний. Таких «малых данных» много, и они разные в организациях.

Поэтому нужны алгоритмы, достаточно «умные», чтобы распознавать данные в конкретных документах даже не в компании, а в её подразделениях, в потенциально небольших объёмах и с минимальным обучением и разработкой.

Жан Паоли, глава Docugami

Docugami, по собственным словам, анализирует и вытаскивает полезные данные из любых типов документов. Можно загрузить партнёрские соглашения, финансовые бумаги, договоры и найти в них даты, платежи, условия и сроки — и сгенерировать новые документы с «полезной» информацией или передать данные, к примеру, в CRM.

Настройка Docugami в облаке занимает около получаса, в которые входит «доработка» алгоритмов под конкретный бизнес (сервис работает по модели SaaS). Руководители обещают, что обработка данных конфиденциальна и алгоритмы ИИ не задействуют полученные знания на документах других компаний.

В мае 2020 года Docugami привлёк $10 млн на посевной стадии — во главе раунда стоял венчурный фонд SignalFire, также принял участие украинский стартап Grammarly. Оценка стартапа не раскрывается.

К ноябрю 2020 года закрытой бета-версией Docugami воспользовалось несколько десятков организаций в различных отраслях, отмечают в сервисе. В 2021 году сервис запустит публичную версию. Пока создатели не рассказали подробностей о монетизации сервиса.

0
6 комментариев
Написать комментарий...
Voin Mraka

похож на азербайджанца %)

Ответить
Развернуть ветку
new_comment

На американца азербайджанского происхождения.

Ответить
Развернуть ветку
Вавилен Татрский

Наоборот🔄

Ответить
Развернуть ветку
Alexander A
создатель формата XML предлагает разобраться в неструктурированных данных с помощью ИИ

Судя по тому, какими обычно получаются документы на XML, данные, может, и станут более структурированными, но вряд ли более понятными. По крайней мере, если это обещает автор XML.

Ответить
Развернуть ветку
Александр Ченцов

Динеш это ты?

Ответить
Развернуть ветку
Al Sark

Причем здесь ИИ, если достаточно структуризации?

Ответить
Развернуть ветку
3 комментария
Раскрывать всегда