python PyPDF2处理PDF文件

原创

已于 2022-08-16 11:52:17 修改 · 3.6k 阅读

标签

#python #PDF #PyPDF2

收录于

于 2022-08-16 11:50:21 首次发布

本文介绍了Python的PyPDF2库，用于处理PDF文件，包括读取内容、加密解密、合并文件、处理页面重叠和添加水印等功能。通过示例代码详细展示了如何使用PyPDF2进行各种操作。

python PyPDF2处理PDF文件

安装PyPDF2

pip install PyPDF2

官方文档：
- https://pypdf2.readthedocs.io/en/latest/
导入模块

import PyPDF2

1. 读取PDF中的内容

# author:mlnt
# createdate:2022/8/16
import PyPDF2    # 导入PyPDF2模块

# 官方文档：https://pypi.org/project/PyPDF2/
# 1.打开PDF文件
pdf = open(file='test.pdf', mode='rb')  # 以二进制方式打开

# 2.获取PDF文件的页数
# 打开PDF文件成功后，可使用PdfFileReader()方法读取PDF内容
pdf_reader = PyPDF2.PdfFileReader(pdf)  # 读取PDF内容
print(f'PDF页数为：{
     
     pdf_reader.numPages}')
print(f'PDF页数为：{
     
     len(pdf_reader.pages)}')

# 3.读取PDF页面内容
"""
- 使用PdfFileReader()方法读取PDF文件后，可使用getPage(n)（或pages[n]）获取第n页的PDF内容
- PDF页面从第0页开始计算
- 页面内容被读入后，可使用extractText()取得该页的字符串内容
"""
for i in range(pdf_reader.numPages):
    pageObj = pdf_reader.getPage(i)  # 读取第i页内容
    # pageObj = pdf_reader.pages[i]  # 读取第i页内容
    page_content = pageObj.extractText()  # 提取页面内容
    print(page_content)

test.pdf：
在这里插入图片描述

读取效果：
在这里插入图片描述

2. PDF简单加密与解密

# author:mlnt
# createdate:2022/8/16

import PyPDF2
from PyPDF2 import PdfReader,</

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

梦里逆天

关注关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

PyPDF2详解教程、依赖库安装、导入及主要功能函数介绍

布啦啦

08-02

1万+

PyPDF2 是一个用于处理 PDF 文件的 Python 库。它可以用于读取、编辑、合并和拆分 PDF 文档，还可以提取文本、图像和其他内容。功能丰富：PyPDF2 提供了许多功能来操作 PDF 文件。你可以使用它来读取 PDF 文档的内容、页面和元数据，也可以创建新的 PDF文件，合并多个 PDF 文件，拆分 PDF 文件为单独的页面，添加页面和水印等。纯Python实现：PyPDF2 是一个纯 Python 实现的库，这使得它易于安装和使用，而且可以在各种平台上运行。

参与评论您还未登录，请先登录后发表或查看评论

Python库——PyPDF2介绍

GMSJSHX的博客

10-19

4934

Python的PyPDF2库介绍

2、5分钟上手｜PyPDF2 快速提取PDF文本

热门推荐

Star的博客

01-14

8万+

实际应用中，可能会涉及处理 pdf 文件，PyPDF2 就是这样一个库，使用它可以轻松的处理 pdf 文件，它提供了读，割，合并，文件转换等多种操作。文档地址：http://pythonhosted.org/PyPDF2/ PyPDF2 安装 PyCharm 安装：File -> Default Settings -> Project Interpreter PdfFileR

python不可以处理pdf文件_Python实现PyPDF2处理PDF文件的方法示例

weixin_39598501的博客

11-25

476

实际应用中，可能会涉及处理 pdf 文件，PyPDF2 就是这样一个库，使用它可以轻松的处理 pdf 文件，它提供了读，割，合并，文件转换等多种操作。文档地址：http://pythonhosted.org/PyPDF2/PyPDF2 安装PyCharm 安装：File -> Default Settings -> Project InterpreterPdfFileReader构造方法：PyPD...

掌握PDF文件处理的神器：Python PyPDF2库详解

涛哥聊Python

11-28

2368

PyPDF2是一个功能丰富的Python库，用于处理PDF文件。无论是需要合并、分割、旋转、提取文本，还是进行更高级的操作如添加水印、加密、提取图像，PyPDF2都能满足需求。通过本文的介绍和示例代码，可以更好地掌握PyPDF2，将其应用于各种PDF文件处理任务中，提高工作效率，简化操作。

【Python 高效办公】如何优雅地用 PyPDF2（2.0以上新版本）或 pypdf 处理 PDF 文件

weixin_40230544的博客

11-05

2585

一个简短的 PyPDF2（2.0以上新版本）和 pypdf 二合一教程，考虑到网上只能看到 PyPDF2 早期版本的教程特此补充供大家学习。

pypdf2中文文档_pdfplumber、pypdf2 常用方法总结

weixin_36165152的博客

01-24

2909

这两天学习了一些处理 PDF 文档的方法，网上查找资料的过程中发现很多处理 PDF 文件的库，多方尝试后推荐两个比较好用的。若处理对象是 PDF 文档本身，则推荐使用 pypdf2，如对 PDF 文档进行分割, 合并, 插入等操作.若处理对象是 PDF 文档中的文本，表格等内容，则推荐使用 pdfplumber.pypdf2PdfFileMerger。该类用来合并 pdf 文件，该类的构...

【python自动化办公】Python自动化之pdf——PyPDF2、pdfplumber、fitz、pdf2image库介绍

m0_58480859的博客

07-18

6506

对pdf文件的处理对大多数人来说是一件很头疼的事：明明应该是简单的合并、分割、提取，很多插件做的花里胡哨还要付费。不过，python中提供了很多处理PDF文件的库，优雅是在优雅！以下简单介绍这些库以及基本的使用，绝对能满足大多数场景的需要！...

PyPDF2：使用Python操作PDF文件

诸神缄默不语的博客

05-29

8039

PDF是文档常用格式，使用Python包PyPDF2可以对PDF文档实现批量、迅速的操作，包括提取文字、切分或合并PDF文件、创建annotation、加密和解密等。本文将介绍PyPDF2包的安装及简单使用方式。

PyPDF2的综合使用

m0_45252287的博客

11-25

2484

PyPDF2

【pypdf2】合并PDF、旋转、缩放、裁剪、加密解密、添加水印

冰冷的希望的博客

07-13

7684

比如说A4纸的大小是210毫米x297毫米，换成磅则是210 / (1 / 72 * 25.4) 约等于595.27磅，297 / (1 / 72 * 25.4) 约等于841.89磅。PageObject对象有一个rotate()方法对自身进行旋转，但是旋转角度取值是0、90、270、180等，即90的倍数，正数是顺时针，负数是逆时针。如果你需要合并某些文档的某些页面，可以通过merge()方法，主要指定位置、合并的文档、文档范围三个参数，即指定从哪个文档插入哪些页面到哪个位置。

Py之PyPDF2：PyPDF2的简介、安装、使用方法之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

11-23

1万+

Py之PyPDF2：PyPDF2的简介、安装、使用方法之详细攻略目录 PyPDF2的简介 PyPDF2的安装 PyPDF2的使用方法 PyPDF2的简介 PyPDF2是一个免费的、开源的纯python PDF库，能够拆分、合并、裁剪和转换PDF文件的页面。它还可以为PDF文件添加自定义数据、查看选项和密码。PyPDF2也可以从pdf中检索文本和元数据。注意:PyPDF2项目将回到它的根。PyPDF2 = = 3.0。X将是PyPDF2的最后一个版本。开发将继续使用pypdf==3.1.

【pypdf2】安装、读取和保存、访问页面、获取文本、读写元数据、加密解密

冰冷的希望的博客

07-08

8419

2.打开和保存PDF文件 pypdf2有PdfReader和PdfWriter两个对象分别用于读和写，reader()方法直接指定PDF文件的路径即可读取PDF文件，writer可以临时保存PDF内容，然后调用write()方法传入文件句柄即可保存到硬盘添加空白页可以通过addBlankPage()方法，但注意，如果PdfWriter对象是空的，你需要指定宽高才能添加空白页，如果PdfWriter已有页面不指定宽高则采用上一页的宽高。可以通过PageObject对象的mediabox属性查看宽高信息 3.

Python系列之 PyPDF2库

唐僧骑马噔了个噔

04-16

6344

Python系列之 PyPDF2库学习 PyPDF2中主要涉及到的几个对象有 PdfFileReader、PdfFileWriter和PdfFileMerger以及PageObject PdfFileReader PdfFileReader对象： import PyPDF2 PyPDF2.PdfFileReader(stream , strict=True , warndest=None , overwriteWarnings=True)) # 参数 # stream ：一个 File 对象或支持类似于

用Python库PyPDF2操作PDF文件

wujianyouhun的专栏

01-30

2480

在学习完上面的内容之后，相信大家已经知道像合并多个PDF文件这样的工作应该如何用Python代码来处理了，赶紧自己动手试一试吧。

python之PyPDF2:操作PDF文档示例详解

naer_chongya的博客

06-29

4572

通过上述示例代码，我们可以发现PyPDF2库提供了一系列的方法用于处理PDF文档。无论是读取文档信息、提取文本内容，还是进行合并、拆分和添加水印等操作，PyPDF2库都能很好地满足我们的需求。PyPDF2是一个用于处理PDF文档的Python库。它提供了一系列的功能，使我们能够读取、修改和创建PDF文件。本文将详细介绍PyPDF2库的使用示例，包括读取文档信息、提取文本内容、合并和拆分文档以及添加水印等操作。安装完成后，我们可以开始使用PyPDF2库。首先，我们需要安装PyPDF2库。