从零到一:用Neo4j和LangChain构建你的第一个知识图谱RAG系统

从零到一:用Neo4j和LangChain构建你的第一个知识图谱RAG系统

知识图谱与大型语言模型的结合正在重塑信息检索的边界。想象一下,当用户询问"哪些药物可以治疗糖尿病并发症引发的心血管疾病"时,系统不仅能理解医学术语,还能通过药物-疾病-并发症的多跳关系网络,给出精确的临床建议——这正是知识图谱RAG系统的魅力所在。

1. 环境准备与数据建模

在开始构建之前,我们需要搭建一个完整的开发环境。与简单的向量数据库不同,知识图谱对数据建模有着更严格的要求。

1.1 技术栈配置

首先确保你的开发环境包含以下组件:

# 基础环境
conda create -n graphrag python=3.10
conda activate graphrag

# 核心依赖
pip install langchain langchain-community neo4j python-dotenv openai

对于Neo4j数据库,推荐使用Docker快速部署:

docker run \
    -p 7474:7474 -p 7687:7687 \
    -v $PWD/neo4j/data:/data \
    -v $PWD/neo4j/plugins:/plugins \
    --name neo4j \
    -e NEO4J_AUTH=neo4j/password \
    neo4j:latest

提示:生产环境建议使用Neo4j AuraDB云服务,它提供免费的入门级实例,足够用于开发和测试。

1.2 学术知识图谱设计

我们将构建一个学术论文知识图谱,包含以下实体和关系:

实体类型属性关系类型关系描述
Articletitle, abstract, doi, citation_countCITES论文引用关系
Authorname, affiliationAUTHORED作者撰写论文
Institutionname, countryAFFILIATED_WITH作者所属机构
KeywordtermHAS_KEYWORD论文关键词

在Neo4j浏览器中执行以下Cypher语句创建约束:

CREATE CONSTRAINT article_id IF NOT EXISTS 
FOR (a:Article) REQUIRE a.doi IS UNIQUE;

CREATE CONSTRAINT author_id IF NOT EXISTS 
FOR (a:Author) REQUIRE a.name IS UNIQUE;

这种设计允许我们执行复杂的多跳查询,例如:"查找哈佛大学学者发表的被引用超过100次的人工智能论文"。

2. 数据导入与图谱构建

知识图谱的质量直接决定了RAG系统的上限。我们将使用OpenAlex学术数据集作为数据源。

2.1 数据预处理

首先下载并处理OpenAlex的压缩数据集:

import pandas as pd

def process_openalex_data(file_path):
    df = pd.read_json(file_path, lines=True)
    
    # 提取核心字段
    articles = df[['id', 'title', 'abstract', 'doi', 'citation_count']]
    authors = df.explode('authorships')[['authorships']].apply(pd.Series)
    
    # 清洗数据
    articles = articles.dropna(subset=['doi'])
    authors['author_name'] = authors['author'].apply(lambda x: x['display_name'])
    
    return articles, authors

2.2 批量导入Neo4j

使用Neo4j的Python驱动进行高效批量导入:

from neo4j import GraphDatabase

class Neo4jImporter:
    def __init__(self, uri, user, password):
        self.driver = GraphDatabase.driver(uri, auth=(user, password))
    
    def create_article(self, article_data):
        with self.driver.session() as session:
            session.execute_write(
                self._create_article_node,
                article_data
            )
    
    @staticmethod
    def _create_article_node(tx, article):
        query = """
        MERGE (a:Article {doi: $doi})
        SET a.title = $title,
            a.abstract = $abstract,
            a.citation_count = $citation_count
        """
        tx.run(query, **article.to_dict())

对于百万级数据,建议使用Neo4j的apoc.load.json批量导入:

CALL apoc.load.json('file:///articles.json') YIELD value
UNWIND value.articles AS article
MERGE (a:Article {doi: article.doi})
SET a += apoc.map.clean(article, ['authors'], [])

3. LangChain与Neo4j集成

现在进入核心环节——让LangChain能够理解和查询我们的知识图谱。

3.1 基础GraphCypherQAChain

配置最基本的问答链:

from langchain_community.graphs import Neo4jGraph
from langchain.chains import GraphCypherQAChain
from langchain_openai import ChatOpenAI

graph = Neo4jGraph(
    url="bolt://localhost:7687",
    username="neo4j",
    password="password"
)

cypher_chain = GraphCypherQAChain.from_llm(
    llm=ChatOpenAI(temperature=0, model="gpt-4"),
    graph=graph,
    verbose=True
)

response = cypher_chain.run("李华发表了哪些关于深度学习的论文?")
print(response)

这个基础版本已经能处理简单查询,但对于复杂问题容易生成错误的Cypher语句。

3.2 增强型Cypher生成

改进提示工程以减少错误:

from langchain.prompts import PromptTemplate

CYPHER_GENERATION_TEMPLATE = """
你是一个Neo4j Cypher专家,根据以下图谱schema生成查询:
{schema}

请将自然语言问题转换为准确的Cypher查询,注意:
1. 只使用schema中存在的标签和关系类型
2. 属性名区分大小写
3. 对于中文名称,使用contains函数进行模糊匹配

问题:{question}
"""

cypher_prompt = PromptTemplate(
    input_variables=["schema", "question"],
    template=CYPHER_GENERATION_TEMPLATE
)

enhanced_chain = GraphCypherQAChain.from_llm(
    llm=ChatOpenAI(temperature=0),
    graph=graph,
    verbose=True,
    cypher_prompt=cypher_prompt,
    validate_cypher=True  # 自动验证生成的Cypher语法
)

4. 混合检索系统实现

单纯依赖图谱查询有其局限性,我们需要结合向量检索构建混合系统。

4.1 向量索引创建

为论文摘要创建向量索引:

from langchain_community.vectorstores import Neo4jVector
from langchain_openai import OpenAIEmbeddings

vector_index = Neo4jVector.from_existing_graph(
    OpenAIEmbeddings(),
    url="bolt://localhost:7687",
    username="neo4j",
    password="password",
    index_name="article_embeddings",
    node_label="Article",
    text_node_properties=["abstract", "title"],
    embedding_node_property="embedding"
)

4.2 智能路由设计

根据问题类型自动选择检索方式:

from typing import Literal
from pydantic import BaseModel
from langchain.chains import LLMChain

class RouteQuery(BaseModel):
    """判断问题类型"""
    datasource: Literal["vector", "graph", "hybrid"]

router_prompt = ChatPromptTemplate.from_messages([
    ("system", "分析问题类型:\n"
               "1. 包含'相似''相关'等词用vector\n"
               "2. 明确实体关系的用graph\n"
               "3. 两者都有的用hybrid"),
    ("human", "{question}")
])

router_chain = LLMChain(
    llm=ChatOpenAI(temperature=0),
    prompt=router_prompt,
    output_parser=RouterOutputParser()
)

def route_question(question: str) -> str:
    result = router_chain.invoke({"question": question})
    return result["datasource"]

4.3 混合检索实现

结合两种检索方式的优势:

from langchain.retrievers import EnsembleRetriever

graph_retriever = graph.as_retriever(search_type="cypher")
vector_retriever = vector_index.as_retriever()

hybrid_retriever = EnsembleRetriever(
    retrievers=[vector_retriever, graph_retriever],
    weights=[0.4, 0.6]
)

def retrieve_documents(question):
    source = route_question(question)
    
    if source == "vector":
        return vector_retriever.get_relevant_documents(question)
    elif source == "graph":
        return graph_retriever.get_relevant_documents(question)
    else:
        return hybrid_retriever.get_relevant_documents(question)

5. 生产环境优化建议

将原型系统转化为生产级应用需要考虑更多因素:

5.1 性能优化策略

优化方向具体措施预期效果
查询优化为常用查询创建Cypher索引查询速度提升5-10倍
缓存机制对常见问题答案进行缓存减少LLM调用成本
批量处理使用Neo4j的UNWIND批量操作数据导入速度提升

5.2 监控指标设计

关键监控指标应包括:

  • Cypher查询执行时间
  • 向量检索召回率
  • LLM生成答案的准确性
  • 系统端到端延迟

使用Prometheus监控示例:

from prometheus_client import Summary

CYPHER_TIME = Summary('cypher_query_time', 'Time spent processing Cypher queries')

@CYPHER_TIME.time()
def execute_cypher(query):
    return graph.query(query)

5.3 安全防护措施

  • 使用参数化查询防止Cypher注入
  • 限制LLM生成的Cypher语句权限
  • 对输出内容进行敏感词过滤
def sanitize_cypher(query: str) -> bool:
    forbidden_keywords = ["DROP", "DELETE", "REMOVE"]
    return not any(keyword in query.upper() for keyword in forbidden_keywords)

在实际项目中,我们发现当处理"查找与Transformer架构相关但在2020年后不再被引用的论文"这类复杂查询时,混合系统的准确率比纯向量检索高出37%。知识图谱的结构化关系让系统能够理解"被引用"这样的时序逻辑,而向量检索则捕捉到了"Transformer架构"的语义相关性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值