python-docx库读写word文档
一、简介
python-docx是利用python来读写word文件的第三方库。
- 开源地址是:https://github.com/python-openxml/python-docx
- 官方教程:https://python-docx.readthedocs.io/en/latest/
- 安装:
pip install python-docx
python-docx库读写word文档主要涉及三个结构对象,层层递进。
Document:文档对象
from docx import Document
doc = Document('./test1.docx') # 打开当前路径下的已有文档
doc = Document() # 新建一个空白文档
Paragraph:段落对象
文档中的每一段内容,以换行符结尾。
Run:文字块对象
每个Paragraph中的不同部分,叫Run。注意:颜色、字体、粗细、斜体不同,就是不同的文字块。

二、读取word文档内容
利用python-docx库来读取现有的word文档数据,思路是先逐层获取对象,再提取相应对象的text属性。
1.读取纯文字docx文档。

for paragraph in doc.paragraphs:
print(f'paragraph.text = {
paragraph.text}')
for run in paragraph.runs:
print(f'\trun.text = {
run.text}')
# output
paragraph.text = 你好,这是第一个测试python-docx库的文档。
run.text = 你好,这是第一个测试python-docx库的文档。
paragraph.text = 这是第二段落
run.text = 这是第二段落
paragraph.text = 这是第三段落,粗体、红色
run.text = 这是第三段落,
run.text = 粗体
r

本文详细介绍了使用python-docx库进行Word文档的读写操作。包括读取文档内容,如纯文字、表格,以及写入文档内容,如添加标题、段落、表格和图片。python-docx提供了一种轻量级的方式来实现Word文档的自动化处理。

7560

被折叠的 条评论
为什么被折叠?



