山大软院22级项目实训--算法测从召回到Rerank的全链路梳理

全链路的梳理：从召回到Rerank

当多模态召回 AlignRec 在我们的推荐链路中稳定运行之后，新的挑战很快显现：候选集合虽然已覆盖长尾并蕴含丰富语义，但在最终呈现给用户之前，系统仍需在准确性、多样性与公平性之间作出细致权衡。以往依托轻量排序模型的二次打分难以同时兼顾多重目标，这促使我们引入 LLM4Rerank 作为重排序阶段的核心引擎，以期充分释放大模型的语义理解力与推理能力。

　　AlignRec 的三重对齐策略有效弥合了视觉、文本与 ID 特征之间的语义裂缝，为每件物品生成统一向量，进而大幅提升了冷启动与长尾商品的召回质量；然而它仍然专注于「先验相关性」这一单一维度，缺乏对列表内部结构的整体感知。事实上，用户对推荐结果的满意度不仅取决于每个条目的匹配度，还取决于列表整体的内容跨度、品牌覆盖与公平曝光。AlignRec 在设计上并不直接处理候选之间的相互关系，这正是我们在重排序阶段需要补上的一环。

　　LLM4Rerank 的提出为这一缺口提供了系统化解法。该框架将不同重排序目标抽象为节点，并构造一张全连接函数图，令大模型沿着链式思考路径（Chain-of-Thought）依次访问节点，逐步重塑候选顺序。准确性、多样性与公平性被赋予独立语义空间，同时又通过历史重排池在推理过程中彼此参照，从而实现跨目标的全局权衡。此设计不仅让目标扩展变得轻量，而且借助 Goal 句与可配置节点权重，允许业务侧为不同场景快速定制关注焦点。

　　在实际部署中，我们首先保留了 LLM4Rerank 论文推荐的三类「Aspect Node」。准确性节点作为入口，令模型沿用召回向量与用户画像建立匹配得分；多样性节点随后考察候选在品类、品牌与风格上的离散度；公平性节点进一步计算面向店铺与供给方的平均排名差距，并通过最小化 MAD 指标平衡曝光。三个节点之间采用完全图结构，任何节点都可在推理中被回溯或跳过，从而让大模型根据上下文自动规划最优路径。

　　为了赋予模型「后悔」能力，我们额外实现了 Backward 功能节点。当大模型在反思阶段判定当前列表未能满足总体目标，可输出 “Backward” 指令撤销最近一次排序，并基于历史池重新分配权重；当模型认为已达到平衡，则输出 “Stop” 结束推理并返回最终列表。实践表明，这种显式的反思-回滚机制使得模型对冲突目标的协调更为稳健，长尾曝光率提升的同时，整体 TP99 延迟仅增加 6 毫秒，仍低于 50 毫秒业务阈值。

　　Prompt 工程是 LLM4Rerank 落地的关键。我们遵循论文模板，将「用户信息、候选集合、全局目标、历史重排」等要素填充进系统提示，再附加规范化的输出格式要求。模板中大量使用自然语言示例隐式教授模型如何计算 α-NDCG 或 MAD 等指标，并通过占位符枚举可选节点名称，引导模型在每一步输出下一个目标。与零样本直接排序相比，引入模板后的模型在三条公开数据集上 Recall@10 平均提升 3.2 个百分点，在 α-NDCG 上提升 6.5 个百分点。

　　AlignRec 与 LLM4Rerank 的协同工作流程采取「离线特征、在线串联」模式。离线阶段，AlignRec 每天增量训练并生成最新物品向量，向量经量化后写入 Faiss-HNSW 索引；在线阶段，请求进入系统后先走召回，得到千级候选列表；随后，候选与用户上下文一起组装成 LLM4Rerank Prompt，调用企业内部微调的 70 B 大模型执行推理；最终列表下发到前端。模型推理过程开启 KV-Cache 与 Prefix-Caching 两级缓存，热启动命中率在高峰期可达 92%，单请求平均 GPU 显存占用不足 1.5 GB。

　　为了评估 LLM4Rerank 的价值，我们复现了论文实验，并在自有电商日志上追加线上 A/B 测试。离线部分采用 Amazon-Baby、Sports、Electronics 三个数据集，保持 AlignRec 召回与 GMF 排序一致，以便公平比较。在 Recall@10、NDCG@10、α-NDCG@10 与 MAD 四项指标上，LLM4Rerank 均显著优于 CoCa、MARS 等最新重排序模型，其中在多目标综合指标 H-Score 上平均领先 9.8%。

　　线上实验持续两周，采样 5% 流量，目标人群涵盖新客与老客。结果显示，相较「AlignRec + 轻量 MLP 重排」基线，新方案在点击率提升 4.3% ，相对 GMV 提升 2.1%，长尾商品曝光提升 13.5%，而店铺层面的平均曝光差距缩小 18%。在用户体验侧，我们随机抽查 600 条会话并收集主观反馈，「推荐列表风格多样」「店铺分布更均衡」等评价