我们知道RAG很重要的一个环节就是解析PDF。
那么传统的PDF解析工具能否适应大模型时代的需求呢?
传统的PDF解析库相当地多,我们就不一一罗列和分析了。这里我们仅以目前最流行的大模型框架LangChain所支持的其中一个解析库PyPDF为例。
我们使用LangChain并选择PyPDFLoader来读取PDF文件“恒生电子:恒生电子股份有限公司2022年年度报告(修订版).PDF”(可以在巨潮资讯搜索下载这份PDF文件)
存在的问题
我们发现通过PyPDFLoader读取的结果存在很多问题,这里仅以PDF第6页和第7页的“七、近三年主要会计数据和财务指标”为例:
通过PyPDFLoader读取的结果如下(为节省篇幅,这里去除了所有空白换行符):

我们可以发现以下问题:
- PDF换页导致表格行头被断开:第四行的行头“经营活动产生的现金流量净额”生生被“1,138,192,779.96 956,789,306.14 18.96 1,397,902,270.41 2022 年年度报告 **7** /**211** ”一长串内容断成了两截。我们可以看到,这一段内容中,就让大模型了解第四行行头意思这一个子任务而言,干扰信息比正常信息还要多一两倍。遇到这种问题,再强大的大模型都无法正确处理!
- 表格尾部数据丢失列头信息:表格最后几行数据完全无法与表格列头建立关系。从而导致大模型无法识别这些数


5239

被折叠的 条评论
为什么被折叠?



