«Раскрыть мощь документов»: создатель формата XML предлагает разобраться в неструктурированных данных с помощью ИИ Статьи редакции
85% накопившихся документов внутри организации — это разрозненные данные, которые можно сделать полезными, считает основатель Docugami Жан Паоли.
Его придумали бывшие разработчики Microsoft во главе с Жаном Паоли, который называет себя «одержимым документами». Он был соавтором формата XML и возглавлял подразделение Microsoft Open Technologies.
Там он запустил формат Office Open XML (.docx, .xlsx), в котором, помимо самого документа, офисные приложения начали хранить графику, данные, XML-текст в открытом виде.
В 2018 году Паоли ушел из Microsoft и начал работу над Docugami — «умным» инструментом на базе технологий искусственного интеллекта, который структурирует неструктурированные данные и «раскрывает всю мощь документов».
По мнению Паоли, около 85% данных в бизнесе «тёмные» — потенциально полезная информация, которая теряется из-за растущего объёма и способов её получения. В корпоративных базах находятся лишь 15% данных.
Паоли называет это явление «дисфункцией документов». Она затрагивает практически все типы компаний — от финансовых и медицинских до правительственных и арендных:
- У банков тысячи кредитных документов, но нулевая прозрачность условий, которые влияют на стоимость кредитов.
- Госучреждениям с сотнями проектных договоров необходимо проверять их и обновлять согласно изменениям в законодательстве.
- Фирмы по работе с коммерческой недвижимостью держат сотни контрактов, но не имеют представления обо всех финансовых обязательствах.
- Врачи в клиниках пишут разрозненные заметки о пациентах, которые сложно объединить в общую картину.
Docugami призван изменить обработку данных внутри компаний, заявляют создатели. Он объединяет глубокое обучение, обработку естественного языка, байесовский, эволюционный и другие методы ИИ, чтобы размечать данные внутри документов любого формата.
Сервис умеет анализировать большие объёмы документов, классифицировать их по типу и функциям, определять общие и уникальные элементы.
Docugami, по собственным словам, анализирует и вытаскивает полезные данные из любых типов документов. Можно загрузить партнёрские соглашения, финансовые бумаги, договоры и найти в них даты, платежи, условия и сроки — и сгенерировать новые документы с «полезной» информацией или передать данные, к примеру, в CRM.
Настройка Docugami в облаке занимает около получаса, в которые входит «доработка» алгоритмов под конкретный бизнес (сервис работает по модели SaaS). Руководители обещают, что обработка данных конфиденциальна и алгоритмы ИИ не задействуют полученные знания на документах других компаний.
В мае 2020 года Docugami привлёк $10 млн на посевной стадии — во главе раунда стоял венчурный фонд SignalFire, также принял участие украинский стартап Grammarly. Оценка стартапа не раскрывается.
К ноябрю 2020 года закрытой бета-версией Docugami воспользовалось несколько десятков организаций в различных отраслях, отмечают в сервисе. В 2021 году сервис запустит публичную версию. Пока создатели не рассказали подробностей о монетизации сервиса.
похож на азербайджанца %)
На американца азербайджанского происхождения.
Наоборот🔄
Судя по тому, какими обычно получаются документы на XML, данные, может, и станут более структурированными, но вряд ли более понятными. По крайней мере, если это обещает автор XML.
Динеш это ты?
Причем здесь ИИ, если достаточно структуризации?