基于财报 PDF 的智能问答与溯源的多模态 RAG 图文问答系统——Datawhale AI夏令营

原创

已于 2025-08-10 13:26:44 修改 · 1.2k 阅读

标签

#人工智能 #pdf #大数据

于 2025-08-10 13:24:15 首次发布

摘要

在信息载体多元化的背景下，企业财报等核心文档多以图文混排 PDF 形式呈现，传统文本导向的问答系统因无法融合图表信息，难以响应涉及跨模态关联的复杂查询（如 “某产品销售额在哪个季度下降”）。核心任务聚焦于构建多模态检索增强生成（RAG）系统，需完成四维度目标：解析图文混排 PDF 构建结构化知识库、实现跨模态语义检索、融合图文信息推理生成答案、精准标注答案来源（文件名及页码）。具体实践中，运用 Python 生态工具链：采用 MinerU 进行 PDF 深度解析，提取文本、表格及图像并生成图像语义描述；基于 bge-m3 模型构建向量索引支持跨模态检索；集成 Qwen 系列大模型，通过 Prompt 工程约束生成逻辑以确保答案忠实性，同步结合模型微调优化领域适配能力。最终系统实现从 PDF 解析到答案生成的端到端闭环，相较于baseline的0.00392，提升至0.2743，为金融分析、企业知识管理等场景提供高效工具支撑，作为多模态 RAG 挑战赛解决方案，具备明确的技术可扩展性与商业落地价值。
关键词: 多模态RAG，财报解析，向量检索，大语言模型，溯源机制

1. 引言

1.1 研究背景

在信息爆炸的时代，企业财报、市场研究报告等核心商业文档多以图文混排的PDF形式存在，这些文档融合了文本、表格、图表（如条形图、折线图、饼图等）等多种信息载体。传统的文本导向问答系统仅能处理纯文本信息，对于需要结合图表内容的复杂查询往往束手无策，例如“根据图表显示，产品A的销售额在哪个季度开始下降？”这类问题，传统系统无法有效响应。

大语言模型（LLM）的崛起为自然语言理解带来了革新，但仍存在两大局限：一是知识局限性，其知识源于预训练数据，对于私有、最新或特定领域的文档（如企业财报）缺乏了解，且易产生“幻觉”；二是模态单一性，多数LLM仅能处理文本，无法直接理解图像信息。检索增强生成（RAG）技术通过从外部知识库检索信息并提供给LLM，有效解决了知识局限性问题，而多模态RAG技术则进一步突破了模态单一性的限制，赋予AI系统“理解”图像的能力，成为处理图文混排文档的前沿方案。

1.2 研究目标与意义

本研究旨在构建一个基于财报PDF的智能问答与溯源的多模态RAG图文问答系统，实现以下目标：解析图文混排PDF，提取文本、表格和图像等多模态信息，构建结构化知识库；实现跨模态语义检索，能够根据文本问题精准召回相关的文本和图像信息；融合检索到的多模态信息，利用大语言模型推理生成准确答案；精准标注答案来源，包括对应的文件名和页码。

该系统的研究意义在于：为金融分析、企业知识管理等场景提供高效工具，帮助用户快速从复杂的财报文档中获取准确信息并验证信息来源，提升信息处理效率和决策质量。同时，作为多模态RAG挑战赛的解决方案，可为相关技术研究提供实践参考，推动多模态信息处理与RAG技术的融合发展。

2. 相关工作

2.1 多模态信息处理

多模态信息处理旨在实现不同模态（如文本、图像、音频等）信息的交互与融合。早期研究多集中于单一模态的处理，随着深度学习技术的发展，跨模态研究逐渐兴起。例如，CLIP模型通过对比学习实现了文本与图像的跨模态语义关联，能够将文本和图像映射到同一向量空间（Radford et al., 2021）。Qwen-VL等多模态大模型则进一步具备了理解图像内容并生成相关文本描述的能力，为图文信息的融合处理提供了有力支持（Tong et al., 2023）。在实际应用中，多模态问题往往需要同时理解文本和图表（图像），尤其是财报数据等关键信息常以图表形式存在，例如回答“哪个季度的销售额增长最快？”可能需要分析柱状图，这对仅能处理文本的系统构成挑战，也是赛题的技术核心和难点。为此，我们需要建立机器“看懂”图片并关联文本的机制，主要有三种主流建模路径：图片描述(Image Captioning)通过视觉语言模型（如Qwen-VL、BLIP）生成图片描述文字，将问题转化为“文本+图片描述”的

最低0.47元/天解锁文章