运用Python抓取PDF表格中的特定数据并生成Excel文件

在工作中遇到了一个问题,需要把PDF中的地方债数据粘贴到Excel表格中,在PDF的每个表格中需要找到“金额”“本息和”“项目总收益”“项目名称”“项目类型”……等等数据。每一页表格需要复制粘贴十次,一共四百多页的PDF岂不是要复制粘贴八千次!眼瞎了都粘不完吧!于是我开始尝试用Python来读取PDF表格,然后找到每个表格对应位置的数据,对应到新生成的序列中,最后导出为Excel。

如图一,这是PDF中每一页记录的地方债项目数据。

 我需要的Excel表格如下图所示:

接下来就是代码展示:

处理单页PDF的代码 

首先运用pdfplumber,如果没有安装需要先安装:

pip install pdfplumber

安装后就可以开始使用了:

import pdfplumber
#导入使用的库


# 读取pdf文件,使用的时候改成自己的路径就行
pdf = pdfplumber.open('D://test1.pdf')

# 访问第一页(使用时改成自己需要的页码即可,页码-1等于[]中需要填的数字
first_page = pdf.pages[0]

# 自动读取表格信息,返回列表
table = first_page.extract_table()

print(table)

我读取了对应页码的数据,输出结果如下:

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值