LangChain4j实战：构建基于企业知识库的智能问答引擎-CSDN博客

1. 为什么你的企业需要一个“懂文档”的AI？

最近跟几个做企业IT的朋友聊天，大家普遍有个头疼的问题：公司里各种文档太多了。产品手册、技术规范、项目报告、客户案例，光是PDF文件就塞满了十几个共享文件夹。新员工来了，想找个资料得问一圈老同事；老员工遇到个历史遗留问题，也得翻半天邮件和文档。更别提那些躺在服务器角落里的陈年Word和Excel了，里面的信息几乎成了“死数据”。

这时候，如果有个AI助手，能像资深专家一样，随时回答你关于这些文档的任何问题，是不是就方便多了？比如你问：“我们去年Q3那个XX项目的技术选型报告里，为什么最终选择了A方案而不是B方案？” 它马上就能从几十页的报告里找到相关段落，给你一个清晰的总结。这就是我们今天要聊的基于企业知识库的智能问答引擎。

这背后的核心技术，就是RAG。你可以把它理解成给大语言模型（比如GPT）装上一个“外接硬盘”和“搜索引擎”。模型本身的知识是固定的、可能过时的，但通过RAG，它能实时地从你指定的文档库里检索信息，然后基于这些最新、最准确的信息来生成答案。这就完美解决了大模型的“幻觉”问题——它不会再瞎编乱造，而是严格依据你提供的材料说话。

那为什么用LangChain4j呢？简单说，因为它让这件事在Java世界里变得异常简单。我之前也试过用Python的LangChain，功能很强大，但对于一个Java技术栈为主的团队来说，引入Python服务总有点别扭，维护成本也高。LangChain4j是专门为Java生态设计的，它能无缝集成到你的Spring Boot应用里，用你熟悉的Java代码风格，就能把文档解析、向量化、检索、生成这一整套复杂流程串起来。对于广大Java开发者来说，这简直是福音，不用再为了AI功能去学另一套技术栈了。

所以，无论你是想给内部Wiki加个智能搜索，还是给产品文档做个问答机器人，或者只是想让沉睡的合同、报告重新产生价值，用LangChain4j构建一个企业专属的智能问答引擎，都是一个非常务实且高效的起点。接下来，我就手把手带你走一遍从零到一的实战过程，保证你跟着做就能跑起来。

2. 环境准备：把你的“工具箱”配齐

工欲善其事，必先利其器。在开始敲代码之前，我们得先把依赖和环境准备好。别担心，整个过程就像搭积木一样简单。

首先，创建一个标准的Spring Boot项目。我用的是IDEA，选择Spring Initializr，依赖先勾选上Spring Web和Lombok就行。项目创建好后，打开pom.xml文件，这里是我们引入“核心武器”的地方。

我们需要的主要是LangChain4j的一系列依赖。这里我直接给出我实测稳定可用的版本组合，你复制过去就行：

<!-- LangChain4j 核心 -->
<dependency>
    <groupId>dev.langchain4j</groupId>
    <artifactId>langchain4j</artifactId>
    <version>1.1.0</version>
</dependency>
<!-- 集成OpenAI（用于调用GPT和Embedding模型） -->
<dependency>
    <groupId>dev.langchain4j</groupId>
    <artifactId>langchain4j-open-ai</artifactId>
    <version>1.1.0</version>
</dependency>
<!-- 简化RAG流程的扩展包（强烈推荐，省很多事） -->
<dependency>
    <groupId>dev.langchain4j</groupId>
    <artifactId>langchain4j-easy-rag</artifactId>
    <version>1.1.0-beta7</version>
</dependency>
<!-- 文档解析器（靠它读PDF、Word） -->
<dependency>
    <groupId>dev.langchain4j</groupId>
    <artifactId>langchain4j-document-parser-apache-tika</artifactId>
    <version>1.1.0</version>
</dependency>

这里重点说一下这几个依赖是干嘛的。langchain4j是框架本体，提供了最基础的抽象和接口。langchain4j-open-ai是连接OpenAI服务的桥梁，我们后面生成答案和把文本变成向量（这个过程叫嵌入）都需要它。langchain4j-easy-rag是个宝藏包，它把RAG流程中那些繁琐的步骤封装成了更简单的API，对于快速上手特别友好。最后一个document-parser-apache-tika是关键，Apache Tika是一个内容分析工具包，能解析几十种文件格式，有了它，我们就不用单独去找PDF解析库或者Word解析库了，它全都能搞定。

依赖加好，点击Maven的刷新按钮，等它下载完。接下来，我们需要一个OpenAI的API Key。如果你还没有，可以去OpenAI官网注册申请。拿到Key之后，不要硬编码在代码里，我习惯把它放在application.yml配置文件里：

# application.yml
openai:
  api-key: sk-your-actual-api-key-here
  model: gpt-4o-mini # 也可以用gpt-3.5-turbo，性价比高

环境到这里就基本配好了。是不是感觉还没开始就结束了？没错，LangChain4j的一大优势就是依赖清晰，开箱即用。接下来，我们进入核心环节，看看怎么把这些“零件”组装成一个能跑起来的引擎。

3. 核心配置：组装你的智能问答引擎

配置是承上启下的关键一步，我们要在这里把各个组件“焊接”起来。我会用一个配置类RagConfig来集中管理，这样代码结构清晰，以后修改也方便。

LangChain4j实战：构建基于企业知识库的智能问答引擎

1. 为什么你的企业需要一个“懂文档”的AI？

2. 环境准备：把你的“工具箱”配齐

3. 核心配置：组装你的智能问答引擎

3.1 配置大语言模型和