Не могу сказать, что такой способ намного более эффективен, но в своё время гнал их в HTML Word`ом…

Разработка 08.12.2020

Анализ документов Word с использованием Python

В своей работе мы часто анализируем большой объем данных. Давайте рассмотрим, как можно автоматизировать процесс анализа документов на примере библиотеки docx (способной обрабатывать документы в формате. docx).

1717

Сергей Бирюков

08.12.2020

Не могу сказать, что такой способ намного более эффективен, но в своё время гнал их в HTML Word`ом и там уже разбирал по кускам.

Ответить

Илья М.

09.12.2020

Это было актуально во времена, когда формат *.doc был бинарным и проприетарным.
Сейчас, когда *.docx является, по сути, XML, завёрнутым в ZIP-архив, достаточно парсить его как текстовый xml- документ.
Объектная модель word-документа благодаря этому стала практически идентичной объектной модели веб-страницы. Соответственно, к ним можно применять схожие подходы - в этом смысле описанная в статья питон-библиотека docx выступает аналогом, например, джаваскрипт-библиотеки jQuery или любой подобной.
Так ведь?

Ответить