Как правило, мы обращаемся к автоматизации, когда нам нужно извлечь нужную информацию не из одного, а сразу из многих документов. Чтобы иметь возможность обработать все документы, для начала нужно собрать список таких документов. Здесь сможет помочь библиотека os, с помощью которой можно рекурсивно обойти директории, в которых хранятся документы. Предположим, что все они находятся внутри директории, где расположен скрипт:
Не могу сказать, что такой способ намного более эффективен, но в своё время гнал их в HTML Word`ом и там уже разбирал по кускам.
Это было актуально во времена, когда формат *.doc был бинарным и проприетарным.
Сейчас, когда *.docx является, по сути, XML, завёрнутым в ZIP-архив, достаточно парсить его как текстовый xml- документ.
Объектная модель word-документа благодаря этому стала практически идентичной объектной модели веб-страницы. Соответственно, к ним можно применять схожие подходы - в этом смысле описанная в статья питон-библиотека docx выступает аналогом, например, джаваскрипт-библиотеки jQuery или любой подобной.
Так ведь?
Rtf...боль
Добротно. Респект от диназавра.
Спасибо. Полезно!
if paragraph.text.find('TEST') > -1:
print(paragraph.text)
А как просто найти слово в тексте ? Все форумы облазил не могу понять ......
for paragraph in document.paragraphs:
if "TEST" in paragraph.text:
print paragraph.text