无向量数据库的RAG实战：轻量级检索增强生成方案-CSDN博客

1. 项目概述：当RAG不再依赖向量数据库，我们到底在省掉什么、换回什么

“How To Do RAG Without Vector Databases”——这个标题一出现，我就在团队晨会上被三个不同方向的同事同时截住：“真能绕开FAISS、Chroma、Qdrant？那语义检索怎么搞？”“没有向量库，chunk embedding存哪儿？”“召回质量会不会断崖式下跌？”——这些问题不是抬杠，而是过去三年里我亲手部署过27个RAG系统后，最常被问到的三连击。

核心关键词已经非常明确： RAG（检索增强生成） 、 向量数据库 、 替代方案 。但标题真正想撬动的，远不止技术选型——它直指一个被行业默认却极少被质疑的前提： “RAG = Embedding + 向量检索 + LLM生成” 。而这个等式，正在被一批务实的一线工程师悄悄改写。

所谓“不做向量数据库”，绝不是倒退回关键词匹配时代，更不是用正则表达式硬刚PDF。它指的是： 在不引入专用向量存储服务（如Chroma、Pinecone、Weaviate）的前提下，完成端到端的检索增强流程 。这里的“不引入”，包含三层含义：不部署独立服务进程、不维护向量索引持久化状态、不依赖向量库特有的ANN（近似最近邻）查询接口。

适合谁参考？如果你正面临这些真实场景——

在边缘设备（Jetson Orin、树莓派5）上跑RAG，内存<4GB，连Docker都得精打细算；
做内部知识库POC，老板只给3天时间，你没精力搭一套Chroma集群再调参；
处理高度结构化文档（如API文档、财务报表、设备手册），语义模糊性低，但对字段级精确召回要求极高；
或者，你只是厌倦了每次升级embedding模型都要全量rebuild向量库的等待——从6小时到37分钟，这种痛只有试过才知道。

我实测过5种无向量库RAG路径，最终在医疗报告解析、工业设备手册问答、法务合同比对三个高敏感度场景中稳定运行超8个月。下面拆解的不是理论可能性，而是每天在生产环境里扛住QPS 127请求的实操方案。

2. 核心思路拆解：为什么放弃向量库不是退化，而是精准减负

2.1 向量数据库的“隐性成本”远超你的想象

先说结论： 90%的中小规模RAG应用，其向量库80%的复杂度都在解决它本不该解决的问题 。这不是危言耸听，而是我把Chroma源码读到第17层嵌套函数后的体会。

向量数据库本质是为“海量非结构化数据+动态高频更新+毫秒级ANN查询”设计的重型武器。但现实中的RAG知识库往往长这样：

文档总量：2,300份PDF（平均页数12页），总文本量≈180万token；
日均更新：3~5份新文档，且多为版本迭代（v1.2→v1.3），非全量替换；
查询特征：73%的提问含明确实体（如“CTLA-4抑制剂”“PLC型号S7-1200”“条款第3.2.1条”）。

在这种场景下，向量库的“优势”反而成了累赘：

存储冗余 ：Chroma默认将embedding（float32×384=1.5KB/向量）与原始文本（平均2.1KB/chunk）双存，2,300份文档的chunk约4.1万个，仅embedding就占61MB——而整个原始知识库压缩后才83MB；
更新延迟 ：每次新增文档需执行 collection.add() →触发HNSW图重建→索引落盘，实测单文档平均耗时2.3秒（含embedding计算），而纯内存方案可压到380ms；
运维黑洞 ：当某次embedding模型升级（如text-embedding-3-small→3-large），必须全量rebuild索引。我经历过一次因磁盘IO瓶颈导致rebuild卡在92%长达11小时，期间服务完全不可用。

提示：向量库真正的价值场景是——千万级文档、每秒百次以上语义搜索、支持实时流式插入。如果你的知识库连10万chunk都不到，先别急着拉起一个Qdrant容器。

2.2 无向量库RAG的三大技术支点

不靠向量库，靠什么撑起RAG的“检索”环节？答案是三个被低估的成熟技术组合：

第一支点：内存映射（Memory-Mapped）+ 原生数组运算

将所有chunk的embedding加载进内存，但不用向量库的索引结构，而是用NumPy的 np.dot() 做暴力内积计算；
关键洞察：当chunk总数<10万时，暴力计算的耗时（CPU主频3.2GHz下约18ms）已优于HNSW图遍历的缓存不命中开销（实测Qdrant在冷启动后首次查询达42ms）；
我们用 mmap 将embedding矩阵映射为只读内存块，进程重启无需重新加载，启动时间从8.2秒降至0.3秒。

第二支点：混合检索（Hybrid Retrieval）架构

放弃“纯语义”执念，用 BM25关键词召回 + embedding相似度重排序 的两级流水线；
第一级：用 rank-bm25 库对chunk文本做词频-逆文档频次加权，10ms内返回Top 200候选；
第二级：仅对这200个chunk计算embedding余弦相似度，计算量降为暴力全量的0.2%；
实测在医疗术语场景，BM25初筛准确率61%，经embedding重排序后提升至89%，且响应P95稳定在112ms。

第三支点：结构化元数据驱动的预过滤（Metadata Pre-filtering）

绝大多数业务文档天然带结构：PDF的章节标题、Markdown的 # H1 、Excel的sheet名、JSON的key路径；
我们在chunking阶段就提取并存储轻量元数据（如 {"doc_type":"SOP","dept":"Manufacturing","version":"2024-Q3"} ），查询时先用SQLite的 WHERE 条件快速过滤（<1ms），再在子集内做语义计算；
某汽车厂设备手册知识库，通过 doc_type='troubleshooting' AND dept='powertrain' 预过滤，将待检chunk从3.2万骤减至87，语义计算耗时从18ms降至0.9ms。

这三支点不是替代向量库，而是用更轻量、更可控、更贴近业务逻辑的技术，解决RAG中最实际的“找得准、找得快、好维护”问题。

3. 核心细节解析：从chunking到召回，每个环节的取舍逻辑

3.1 Chunking策略：为什么“固定长度+重叠”正在被淘汰

传统RAG教程教的“512 token固定切分+128重叠”，在我处理过的12类文档中，有9类会出致命问题：

技术文档 ：重叠部分常割裂代码块（如 if (x > 0) { 被切在两段），导致embedding无法理解逻辑；
法律合同 ：关键条款（如“不可抗力定义”）常跨页，固定切分让上下文碎片化；
医疗报告 ：检验指标（如“ALT: 42 U/L”）单独成chunk毫无意义，必须绑定临床描述。

我们改用 语义感知分块（Semantic-Aware Chunking） ：

首层：基于文档结构的粗分
- PDF：用 pymupdf 提取 page.get_text("dict") ，按 blocks （文本块）而非 lines 切分，保留标题层级；
- Markdown：用 markdown-it-py 解析AST，以 heading 节点为锚点，将 heading 与其后所有 paragraph 、 code_block 归为同一chunk；
- Excel：按 sheet 为单位，将每行转为 {"col_A":"value","col_B":"value"} 格式字符串，避免跨行信息丢失。
次层：动态长度约束
- 不设固定token上限，而是用 tiktoken 实时计数，当chunk字数>384且下一个句子/段落加入会超768时，强制在此处切分；
- 关键规则： 绝不切断列表项（ - item ）、代码块（```）、表格行（ | col1 | col2 | ） ，宁可让chunk略长，也要保全最小语义单元。

元数据注入

每个chunk自动附加5个字段：

{
  "source_id": "manual_s71200_v2.3.pdf",
  "page_num": 42,
  "section_title": "3.2.1 网络配置故障诊断",
  "doc_type": "technical_manual",
  "embedding_hash": "sha256(text[:200])"
}

embedding_hash 用于后续增量更新检测：若新文档同位置chunk的hash未变，则跳过embedding重计算。

注意：我们禁用所有“智能重叠”工具（如 langchain.text_splitter.RecursiveCharacterTextSplitter 的 chunk_overlap 参数）。实测发现，人工设计的重叠规则（如“在‘解决方案：’后强制切分”）比算法生成的重叠准确率高3.2倍，且调试成本更低。

3.2 Embedding计算：如何让GPU不吃亏，CPU不干烧

不依赖向量库，不等于放弃高质量embedding。关键在 计算时机与存储策略 的重构：

计算时机：离线批处理 + 增量更新

新文档入库流程： PDF → 结构化解析 → chunk生成 → embedding批量计算 → 写入内存映射文件 ；
批量计算用 transformers 的 pipeline ，启用 fp16 和 batch_size=64 ，A10G显卡上处理1,000个chunk仅需23秒；
增量更新：当检测到 embedding_hash 变更，仅对该chunk重计算，避免全量rebuild。

存储策略：内存映射文件（.npy mmap）

将所有embedding存为单个


   .npy

文件，用


   np.memmap

加载：

# 创建映射文件（首次）
embeddings = np.memmap("embeddings.npy", dtype="float32", mode="w+", shape=(total_chunks, 384))

# 加载（服务启动时）
mm_embeddings = np.memmap("embeddings.npy", dtype="float32", mode="r", shape=(total_chunks, 384))

优势：
- 文件大小恒定（384×4=1.5KB/chunk），无向量库的B+树索引膨胀；
- 进程间共享：多个FastAPI worker可共用同一内存映射，避免重复加载；
- 磁盘友好： .npy 文件可直接用 rsync 增量同步，比Chroma的 chroma.db 二进制文件更易备份。

模型选型：小尺寸≠低质量

放弃 text-embedding-ada-002 （1536维），改用 intfloat/multilingual-e5-small （384维）：
- 维度降为1/4，内存占用从1.5KB→0.38KB/chunk；
- 在中文医疗术语相似度测试集（MTEB-CN）上，cosine相似度相关系数仅下降0.07（0.89→0.82），但推理速度提升3.2倍；
- 关键技巧：对查询文本，我们做 "query: " + query 前缀，对文档chunk做 "passage: " + text 前缀，这是e5系列模型的官方推荐用法，能显著提升跨语言对齐效果。

3.3 检索引擎：BM25与Embedding的协同机制

混合检索不是简单“先BM25后embedding”，而是设计精密的协同流水线：

第一阶段：BM25初筛（毫秒级）

使用 rank-bm25 库，但改造其tokenizer：
- 中文：用 jieba.lcut 分词，但 过滤停用词+保留专业术语 （如“CTLA-4”“S7-1200”不被切开）；
- 英文：用 nltk.word_tokenize ，但添加自定义词典（如“FDA-approved”视为单token）；
BM25权重动态调整：对 section_title 字段赋予3.0权重（默认1.0），因为用户提问72%含章节名（如“SOP第5章怎么操作？”）。

第二阶段：Embedding重排序（亚百毫秒级）

仅对BM25返回的Top 200 chunk计算相似度，但 不直接用cosine ：
- 公式改为： score = 0.7 * bm25_score + 0.3 * cosine_similarity(query_emb, chunk_emb) ；
- 系数0.7/0.3来自A/B测试：在法务合同场景，此配比使F1-score比纯cosine高12.3%，且减少“语义正确但条款过时”的误召。
关键优化：用 scipy.spatial.distance.cdist 批量计算，而非循环调用 sklearn.metrics.pairwise.cosine_similarity ，耗时从142ms降至39ms。

第三阶段：元数据熔断（微秒级）

在重排序后，增加一道硬过滤：

# 用户查询含"2024版"，则强制排除version != "2024"的chunk
if "2024" in query and chunk_meta["version"] != "2024":
    continue

此步骤在Python层面执行，耗时<5μs，却能拦截31%的无效召回，避免LLM浪费token生成过时答案。

4. 实操过程：从零搭建一个无向量库RAG服务

4.1 环境准备与依赖安装

我们选择极简技术栈：Python 3.10 + FastAPI + NumPy + SQLite，零外部服务依赖。

基础环境（Ubuntu 22.04 LTS） ：

# 创建隔离环境
python3.10 -m venv rag-env
source rag-env/bin/activate

# 安装核心依赖（注意版本锁定！）
pip install --upgrade pip
pip install "fastapi==0.110.2" "uvicorn==0.29.0" "numpy==1.26.4" \
            "scikit-learn==1.4.2" "scipy==1.13.0" "rank-bm25==0.2.2" \
            "transformers==4.41.2" "torch==2.3.0+cu121" -f https://download.pytorch.org/whl/torch_stable.html \
            "pymupdf==1.24.3" "markdown-it-py==3.0.0" "jinja2==3.1.4"

关键版本说明 ：

rank-bm25==0.2.2 ：修复了0.2.1版本在中文分词时的内存泄漏；
pymupdf==1.24.3 ：唯一支持PDF表格线识别的版本，对设备手册解析至关重要；
torch==2.3.0+cu121 ：CUDA 12.1编译版，适配A10G显卡，比CPU版embedding快17倍。

提示：禁用 langchain ！其 Chroma / FAISS 封装会偷偷引入向量库依赖，且抽象层掩盖了底层性能瓶颈。我们直接调用 transformers 和 numpy ，控制粒度更细。

4.2 知识库构建全流程代码

以下为生产环境使用的 build_knowledge_base.py 核心逻辑（已删减日志与异常处理）：

import numpy as np
from transformers import AutoTokenizer, AutoModel
from pymupdf import fitz
import jieba
import sqlite3
from pathlib import Path

# 1. 初始化embedding模型（e5-small）
tokenizer = AutoTokenizer.from_pretrained("intfloat/multilingual-e5-small")
model = AutoModel.from_pretrained("intfloat/multilingual-e5-small").cuda()

# 2. 解析PDF，生成chunk及元数据
def parse_pdf(pdf_path: str):
    doc = fitz.open(pdf_path)
    chunks = []
    for page_num in range(len(doc)):
        page = doc[page_num]
        blocks = page.get_text("dict")["blocks"]
        for block in blocks:
            if "lines" not in block:
                continue
            text = ""
            for line in block["lines"]:
                for span in line["spans"]:
                    text += span["text"]
            if len(text.strip()) < 20:  # 过滤页眉页脚
                continue
            # 提取章节标题（基于字体大小）
            title = ""
            if block["lines"][0]["spans"][0]["size"] > 16:
                title = block["lines"][0]["spans"][0]["text"].strip()
            chunks.append({
                "text": text.strip(),
                "source_id": Path(pdf_path).name,
                "page_num": page_num + 1,
                "section_title": title,
                "doc_type": "technical_manual",
                "embedding_hash": hashlib.sha256(text[:200].encode()).hexdigest()
            })
    return chunks

# 3. 批量计算embedding
def compute_embeddings(chunks: list):
    texts = [f"passage: {c['text']}" for c in chunks]
    inputs = tokenizer(
        texts, 
        padding=True, 
        truncation=True, 
        max_length=512, 
        return_tensors="pt"
    ).to("cuda")
    
    with torch.no_grad():
        outputs = model(**inputs)
        embeddings = outputs.last_hidden_state.mean(dim=1).cpu().numpy()
    
    return embeddings

# 4. 构建SQLite元数据库
def build_sqlite_db(chunks: list, db_path: str):
    conn = sqlite3.connect(db_path)
    cursor = conn.cursor()
    cursor.execute('''
        CREATE TABLE IF NOT EXISTS chunks (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            source_id TEXT,
            page_num INTEGER,
            section_title TEXT,
            doc_type TEXT,
            embedding_hash TEXT,
            text TEXT
        )
    ''')
    cursor.executemany('''
        INSERT INTO chunks (source_id, page_num, section_title, doc_type, embedding_hash, text)
        VALUES (?, ?, ?, ?, ?, ?)
    ''', [(c["source_id"], c["page_num"], c["section_title"], c["doc_type"], c["embedding_hash"], c["text"]) for c in chunks])
    conn.commit()
    conn.close()

# 主流程
if __name__ == "__main__":
    pdf_dir = Path("data/manuals/")
    all_chunks = []
    for pdf_path in pdf_dir.glob("*.pdf"):
        print(f"Processing {pdf_path.name}...")
        chunks = parse_pdf(str(pdf_path))
        all_chunks.extend(chunks)
    
    # 计算embedding并保存为mmap文件
    embeddings = compute_embeddings(all_chunks)
    np.save("embeddings.npy", embeddings)  # 自动创建mmap兼容文件
    
    # 构建SQLite数据库
    build_sqlite_db(all_chunks, "chunks.db")
    
    print(f"Built {len(all_chunks)} chunks. Embeddings saved to embeddings.npy")

执行命令 ：

python build_knowledge_base.py
# 输出：Built 4127 chunks. Embeddings saved to embeddings.npy

关键验证点 ：

检查 embeddings.npy 大小： 4127 × 384 × 4 = 6.3MB ，符合预期；
检查 chunks.db ： sqlite3 chunks.db "SELECT COUNT(*) FROM chunks;" 应返回 4127 ；
随机抽样： sqlite3 chunks.db "SELECT text FROM chunks WHERE id=1234;" 确认文本完整性。

4.3 检索服务API实现

app.py ——一个仅217行的FastAPI服务，无任何向量库依赖：

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
import numpy as np
import sqlite3
from rank_bm25 import BM25Okapi
import jieba
import torch
from transformers import AutoTokenizer, AutoModel

app = FastAPI()

# 加载embedding（mmap模式，只读）
mm_embeddings = np.memmap("embeddings.npy", dtype="float32", mode="r")
total_chunks = mm_embeddings.shape[0] // 384
embeddings = mm_embeddings.reshape(total_chunks, 384)

# 加载SQLite数据库
conn = sqlite3.connect("chunks.db")
cursor = conn.cursor()

# 预加载所有chunk文本用于BM25
cursor.execute("SELECT id, text FROM chunks")
rows = cursor.fetchall()
chunk_ids = [r[0] for r in rows]
chunk_texts = [r[1] for r in rows]

# 构建BM25索引（中文分词）
tokenized_corpus = [list(jieba.cut_for_search(text)) for text in chunk_texts]
bm25 = BM25Okapi(tokenized_corpus)

# 加载e5模型（CPU模式，避免GPU争抢）
tokenizer = AutoTokenizer.from_pretrained("intfloat/multilingual-e5-small")
model = AutoModel.from_pretrained("intfloat/multilingual-e5-small")

class QueryRequest(BaseModel):
    query: str
    top_k: int = 5

@app.post("/search")
def search(request: QueryRequest):
    # Step 1: BM25初筛
    tokenized_query = list(jieba.cut_for_search(request.query))
    bm25_scores = bm25.get_scores(tokenized_query)
    top_200_indices = np.argsort(bm25_scores)[::-1][:200]
    
    # Step 2: Embedding重排序
    query_emb = get_query_embedding(request.query)
    scores = []
    for idx in top_200_indices:
        chunk_emb = embeddings[idx]
        cos_sim = np.dot(query_emb, chunk_emb) / (np.linalg.norm(query_emb) * np.linalg.norm(chunk_emb))
        # 融合BM25分数（归一化到0-1）
        norm_bm25 = (bm25_scores[idx] - min(bm25_scores)) / (max(bm25_scores) - min(bm25_scores) + 1e-8)
        final_score = 0.7 * norm_bm25 + 0.3 * cos_sim
        scores.append((idx, final_score))
    
    # Step 3: 排序并取top_k
    scores.sort(key=lambda x: x[1], reverse=True)
    result_ids = [idx for idx, _ in scores[:request.top_k]]
    
    # Step 4: 从SQLite获取完整chunk信息
    placeholders = ','.join(['?'] * len(result_ids))
    cursor.execute(f"SELECT id, source_id, page_num, section_title, text FROM chunks WHERE id IN ({placeholders})", result_ids)
    results = cursor.fetchall()
    
    return {"results": [
        {
            "id": r[0],
            "source_id": r[1],
            "page_num": r[2],
            "section_title": r[3],
            "text": r[4][:200] + "..." if len(r[4]) > 200 else r[4]
        } for r in results
    ]}

def get_query_embedding(query: str) -> np.ndarray:
    inputs = tokenizer(
        f"query: {query}",
        padding=True,
        truncation=True,
        max_length=512,
        return_tensors="pt"
    )
    with torch.no_grad():
        outputs = model(**inputs)
        emb = outputs.last_hidden_state.mean(dim=1).cpu().numpy()[0]
    return emb

if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0:8000", port=8000, workers=4)

启动服务 ：

uvicorn app:app --host 0.0.0.0 --port 8000 --workers 4 --reload

测试查询 ：

curl -X POST "http://localhost:8000/search" \
  -H "Content-Type: application/json" \
  -d '{"query":"S7-1200 PLC网络配置失败怎么办？", "top_k":3}'

响应示例 ：

{
  "results": [
    {
      "id": 1245,
      "source_id": "S7-1200_Manual_v2.3.pdf",
      "page_num": 87,
      "section_title": "3.2.1 网络配置故障诊断",
      "text": "现象：下载硬件组态后PLC无法连接。原因：IP地址冲突或子网掩码设置错误。解决方案：1. 检查PC与PLC是否在同一网段；2. ..."
    }
  ]
}

5. 常见问题与排查技巧实录

5.1 性能瓶颈排查：为什么我的响应慢到3秒？

我们整理了生产环境中最常见的5类性能问题及根治方案：

问题现象	根本原因	诊断命令	解决方案
首次查询>2秒	embedding模型首次加载触发CUDA初始化	`nvidia-smi` 观察GPU memory usage	在服务启动时预热： `get_query_embedding("warmup")`
P95延迟突增至800ms	SQLite数据库未建索引， `WHERE id IN (...)` 全表扫描	`EXPLAIN QUERY PLAN SELECT ... FROM chunks WHERE id IN (1,2,3)`	`CREATE INDEX idx_chunk_id ON chunks(id);`
内存占用持续增长	`rank-bm25` 的 `BM25Okapi` 对象未复用，每次新建	`ps aux --sort=-%mem \| head -5`	将 `bm25` 对象声明为全局变量，避免重复初始化
embedding计算卡死	PDF解析遇到加密文档或损坏字体	`fitz.open(pdf_path).is_pdf` 返回False	增加预检： `try: doc = fitz.open(pdf_path) except Exception: log_error_and_skip()`
BM25召回为空	中文分词器 `jieba.cut_for_search` 对英文缩写失效（如"S7-1200"被切为"S7","1200"）	`list(jieba.cut_for_search("S7-1200"))`	注册自定义词典： `jieba.suggest_freq("S7-1200", True)`

独家技巧 ：在 app.py 中加入实时性能监控中间件：

from time import time
@app.middleware("http")
async def add_process_time_header(request: Request, call_next):
    start_time = time()
    response = await call_next(request)
    process_time = time() - start_time
    response.headers["X-Process-Time"] = str(process_time)
    if process_time > 0.5:  # 超500ms告警
        logger.warning(f"Slow query: {request.url} took {process_time:.3f}s")
    return response

5.2 准确率问题：为什么总是召回不相关chunk？

准确率不足，90%源于 元数据设计缺陷 ，而非embedding模型。我们总结出3个必查点：

检查点1： section_title 是否为空白？

现象：BM25权重最高的字段缺失，导致所有chunk权重趋同；
解决：在 parse_pdf 中强制提取标题，即使 block["lines"][0]["spans"][0]["size"] < 16 ，也用正则 r"^第\d+章|^Appendix [A-Z]" 匹配。

检查点2： embedding_hash 是否覆盖全文？

错误做法： hashlib.sha256(text.encode()).hexdigest() → 长文本哈希值相同概率高；
正确做法： hashlib.sha256((text[:100] + text[-100:]).encode()).hexdigest() → 首尾各100字符，兼顾效率与唯一性。

检查点3：查询前缀是否匹配？

e5模型要求严格：查询必须用 "query: " ，文档必须用 "passage: " ；
常见错误： get_query_embedding("query: " + query) → 实际传入 "query: query: xxx" ；
正确写法： inputs = tokenizer(f"query: {query}", ...) ，确保前缀只加一次。

5.3 部署陷阱：Docker环境下mmap失效

在Docker中， np.memmap 可能报错 OSError: Cannot mmap an empty file ，这是因为：

Docker镜像构建时 embeddings.npy 尚未生成；
或挂载卷权限问题，容器内无法读取 .npy 文件。

根治方案 ：

构建镜像时，将


   build_knowledge_base.py

作为

RUN

指令执行：

COPY data/manuals/ /app/data/manuals/
RUN python build_knowledge_base.py

确保 .npy 文件在镜像内： RUN ls -lh embeddings.npy ；

启动命令指定只读挂载（防意外修改）：

docker run -v $(pwd)/chunks.db:/app/chunks.db:ro -p 8000:8000 rag-app

5.4 扩展性边界：当知识库突破10万chunk

我们的方案在 chunk_count ≤ 80,000 时表现最优（P95<150ms）。超过此规模，需渐进式升级：

阶段1（8万~15万） ：启用SQLite的FTS5全文索引替代BM25
```
CREATE VIRTUAL TABLE chunks_fts USING fts5(text, source_id, section_title);
INSERT INTO chunks_fts SELECT text, source_id, section_title FROM chunks;
```
FTS5的 bm25() 函数比 rank-bm25 快2.1倍，且支持 MATCH 'S7-1200 NEAR/3 configuration' 语法。
阶段2（15万~50万） ：引入 annoy 库替代暴力计算
- annoy 是纯内存、无服务依赖的ANN库，单文件索引， build(10) 后查询P95<8ms；
- 关键优势：索引文件可 rsync 同步，无需服务进程。
阶段3（50万+） ：此时才应认真评估向量库——但优先选 Qdrant 而非 Chroma ，因其内存映射模式更接近我们的设计哲学。

6. 实战效果对比：无向量库方案的真实收益

我们在三个客户现场做了6个月对照测试，数据全部来自生产环境日志（非实验室模拟）：

指标	传统向量库方案（Chroma）	无向量库方案	提升幅度	业务影响
部署时间	平均4.2小时（含Docker配置、索引调优）	18分钟（ `pip install` + `python build.py` ）	93%↓	法务部POC从“下周交付”变为“今天下午上线”
内存占用	1.2GB（Chroma进程+embedding内存）	312MB（纯embedding mmap）	74%↓	边缘设备（Jetson Orin）成功部署，原方案因OOM失败
增量更新耗时	单文档平均2.3秒（全量索引重建）	单文档平均380ms（仅重算1个embedding）	83%↓	设备手册日更30份，每日节省2.1小时运维时间
P95延迟	142ms（冷启动后）	112ms（全程稳定）	21%↓	医疗问诊系统响应达标率从92.3%→99.1%
故障恢复时间	平均37分钟（索引损坏需rebuild）	<30秒（重启服务即恢复）	99%↓	工业客户产线停机损失降低$28,000/年