在工作中遇到了一个问题,需要把PDF中的地方债数据粘贴到Excel表格中,在PDF的每个表格中需要找到“金额”“本息和”“项目总收益”“项目名称”“项目类型”……等等数据。每一页表格需要复制粘贴十次,一共四百多页的PDF岂不是要复制粘贴八千次!眼瞎了都粘不完吧!于是我开始尝试用Python来读取PDF表格,然后找到每个表格对应位置的数据,对应到新生成的序列中,最后导出为Excel。
如图一,这是PDF中每一页记录的地方债项目数据。

我需要的Excel表格如下图所示:

接下来就是代码展示:
处理单页PDF的代码
首先运用pdfplumber,如果没有安装需要先安装:
pip install pdfplumber
安装后就可以开始使用了:
import pdfplumber
#导入使用的库
# 读取pdf文件,使用的时候改成自己的路径就行
pdf = pdfplumber.open('D://test1.pdf')
# 访问第一页(使用时改成自己需要的页码即可,页码-1等于[]中需要填的数字
first_page = pdf.pages[0]
# 自动读取表格信息,返回列表
table = first_page.extract_table()
print(table)
我读取了对应页码的数据,输出结果如下:


1000

被折叠的 条评论
为什么被折叠?



