该篇不针对pdfplumber展开详细论述,请详见参考链接
安装
使用pdfplumber第三方库直接安装
pip install pdfplumber
简单实例
说明:该实例是在某文件夹下一千个pdf文件中找寻符合条件的pdf
import os
import pdfplumber
filepath = r'C:\Users\用户\Desktop\qiandao' #从压缩包解压出的文件夹
for dirpath in os.listdir(filepath): #遍历该文件夹下一千个pdf文件
with pdfplumber.open('C:\\Users\\用户\\Desktop\\qiandao\\'+dirpath) as pdf: #每次循环打开一个pdf
firs = pdf.pages[0] #打开第一页(因每个pdf都是证书,只有一页)
text = firs.extract_text() #读取第一页内容
if '张三' in text : #输入需要查找的人名
print(dirpath) #输出包含该人名的文件名
读取PDF
pdfplumber提供了两种读取pdf的方式:
pdfplumber.open(".pdf")pdfplumber.load(file_like_object)
这两种方法都返回pdfplumber.PDF类的实例(instance)。
加载带密码的pdf需要传入参数password,例如:pdfplumber.open("file.pdf", password = "test")
一些常用的方法
.extract_text() 用来提页面中的文本,将页面的所有字符对象整理为的那个字符串
.extract_words() 返回的是所有的单词及其相关信息
.extract_tables() 提取页面的表格
.to_image() 用于可视化调试时,返回PageImage类的一个实例
实例
import pdfplumber
import pandas as pd
with pdfplumber.open("表格.pdf") as pdf:
page = pdf.pages[0] # 第一页的信息
table = page.extract_tables()
for t in table:
# 得到的table是嵌套list类型,转化成DataFrame
df = pd.DataFrame(t[1:], columns=t[0])
print(df)
参考链接:https://blog.csdn.net/weixin_48629601/article/details/107224376
本文介绍了Python库pdfplumber的安装与基本使用,包括读取PDF文件、提取文本、查找特定内容以及提取表格。通过示例展示了如何在大量PDF文件中搜索特定人名,并将找到的文件路径打印出来。还提到了pdfplumber的一些关键方法,如`.extract_text()`、`.extract_words()`和`.extract_tables()`,并展示了如何将提取的表格转换为DataFrame。此外,还提及了处理带密码的PDF以及使用`.to_image()`进行可视化的方法。

5239

被折叠的 条评论
为什么被折叠?



