运用Python抓取PDF表格中的特定数据并生成Excel文件

最新推荐文章于 2026-03-28 02:42:29 发布

原创

最新推荐文章于 2026-03-28 02:42:29 发布 · 2.4k 阅读

标签

#pdf #excel #python

收录于

在工作中遇到了一个问题，需要把PDF中的地方债数据粘贴到Excel表格中，在PDF的每个表格中需要找到“金额”“本息和”“项目总收益”“项目名称”“项目类型”……等等数据。每一页表格需要复制粘贴十次，一共四百多页的PDF岂不是要复制粘贴八千次！眼瞎了都粘不完吧！于是我开始尝试用Python来读取PDF表格，然后找到每个表格对应位置的数据，对应到新生成的序列中，最后导出为Excel。

如图一，这是PDF中每一页记录的地方债项目数据。

我需要的Excel表格如下图所示：

接下来就是代码展示：

处理单页PDF的代码

首先运用pdfplumber，如果没有安装需要先安装：

pip install pdfplumber

安装后就可以开始使用了：

import pdfplumber
#导入使用的库


# 读取pdf文件,使用的时候改成自己的路径就行
pdf = pdfplumber.open('D://test1.pdf')

# 访问第一页（使用时改成自己需要的页码即可，页码-1等于[]中需要填的数字
first_page = pdf.pages[0]

# 自动读取表格信息,返回列表
table = first_page.extract_table()

print(table)

我读取了对应页码的数据，输出结果如下：