介绍
pdf是一种便携式文档格式,由Adobe公司设计。因为不受平台限制,且方便保存和传输,所以pdf非常受欢迎。目前市场上有很多pdf工具,大部分是阅读类,也有支持对pdf的修改、转换等功能,但这部分工具不少是收费的。这里介绍一个开源python工具库-pdfplumber,可以方便地获取pdf的各种信息,包括文本、表格、图表、尺寸等。
pdfplumber安装以及导入
- 首先
pdfplumber安装导入:和其他库一样,pdfplumber支持使用pip安装
pip install pdfplumber
pdfplumber安装完成后,用import导入使用
import pdfplumber
- 利用
.extract_tables( )可以输出pdf中的表格
pdfplumber简单使用
pdfplumber中有两个基础类,PDF和Page。前者用来处理整个文档,后者用来处理整个页面
pdfplumber.PDF类:.metadata: 获取pdf基础信息,返回字典.pages一个包含pdfplumber.Page实例的列表,每一个实例代表pdf每一页的信息。
pdfplumber.Page类:pdfplumber核心功能,对PDF的大部分操作都是基于这个类,包括提取文本、表格、尺寸等

本文介绍了一个开源Python工具库-pdfplumber,它能便捷地获取PDF文档中的文本、表格等内容。文章详细展示了如何安装及使用该工具,包括读取文档信息、提取文本与表格等关键功能。

656

被折叠的 条评论
为什么被折叠?



