Lanchain提供了加载多种文档的能力,Lanchain初了能加载txt,csv等格式文档外,还支持加载网页,音频,pdf等。本篇博客将介绍如何通过Langchain完成PDF文档,音频文档,网页文档的加载。
加载PDF文档
通过使用Langchain提供的PyPDFLoader,可以非常容易的加载一个已有的pdf文档,需要注意一点:使用PyPDFLoader需要安装pip3 install pypdf。
from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader(
'./chat-with-data/data/cs229_lectures/MachineLearning-Lecture01.pdf')
result = loader.load()
print(type(result))
print(len(result))
print(result[0])
page = result[0]
print(page.page_content)
print(page.metadata)
加载完成后,打印加载的信息,可以看到结果信息类型是一个List,List的长度是22,这个pdf的页数也是22。所以,存放PDF文档内容是按页来存储的。每一个List中的值,包含page_content和metadata信息。
可以单独获取每一页的page_content和metad

本篇博客介绍了Langchain加载多种文档的能力。它能加载txt、csv等格式文档,还支持网页、音频、pdf等。具体介绍了通过Langchain加载PDF文档、Youtube音频信息和Web Page的方法,还提及可通过json转换获取真正的文档内容,更多信息可查看官网。

4372

被折叠的 条评论
为什么被折叠?



