Это было актуально во времена, когда формат *.doc был бинарным и проприетарным. Сейчас, когда *.docx является, по сути, XML, завёрнутым в ZIP-архив, достаточно парсить его как текстовый xml- документ. Объектная модель word-документа благодаря этому стала практически идентичной объектной модели веб-страницы. Соответственно, к ним можно применять схожие подходы - в этом смысле описанная в статья питон-библиотека docx выступает аналогом, например, джаваскрипт-библиотеки jQuery или любой подобной. Так ведь?
Не могу сказать, что такой способ намного более эффективен, но в своё время гнал их в HTML Word`ом и там уже разбирал по кускам.
Это было актуально во времена, когда формат *.doc был бинарным и проприетарным.
Сейчас, когда *.docx является, по сути, XML, завёрнутым в ZIP-архив, достаточно парсить его как текстовый xml- документ.
Объектная модель word-документа благодаря этому стала практически идентичной объектной модели веб-страницы. Соответственно, к ним можно применять схожие подходы - в этом смысле описанная в статья питон-библиотека docx выступает аналогом, например, джаваскрипт-библиотеки jQuery или любой подобной.
Так ведь?