全链路的梳理:从召回到Rerank
当多模态召回 AlignRec 在我们的推荐链路中稳定运行之后,新的挑战很快显现:候选集合虽然已覆盖长尾并蕴含丰富语义,但在最终呈现给用户之前,系统仍需在准确性、多样性与公平性之间作出细致权衡。以往依托轻量排序模型的二次打分难以同时兼顾多重目标,这促使我们引入 LLM4Rerank 作为重排序阶段的核心引擎,以期充分释放大模型的语义理解力与推理能力。
AlignRec 的三重对齐策略有效弥合了视觉、文本与 ID 特征之间的语义裂缝,为每件物品生成统一向量,进而大幅提升了冷启动与长尾商品的召回质量;然而它仍然专注于「先验相关性」这一单一维度,缺乏对列表内部结构的整体感知。事实上,用户对推荐结果的满意度不仅取决于每个条目的匹配度,还取决于列表整体的内容跨度、品牌覆盖与公平曝光。AlignRec 在设计上并不直接处理候选之间的相互关系,这正是我们在重排序阶段需要补上的一环。
LLM4Rerank 的提出为这一缺口提供了系统化解法。该框架将不同重排序目标抽象为节点,并构造一张全连接函数图,令大模型沿着链式思考路径(Chain-of-Thought)依次访问节点,逐步重塑候选顺序。准确性、 多样性与公平性被赋予独立语义空间,同时又通过历史重排池在推理过程中彼此参照,从而实现跨目标的全局权衡。此设计不仅让目标扩展变得轻量,而且借助 Goal 句与可配置节点权重,允许业务侧为不同场景快速定制关注焦点。
在实际部署中,我们首先保留了 LLM4Rerank 论文推荐的三类「Aspect Node」。准确性节点作为入口,令模型沿用召回向量与用户画像建立匹配得分;多样性节点随后考察候选在品类、品牌与风格上的离散度;公平性节点进一步计算面向店铺与供给方的平均排名差距,并通过最小化 MAD 指标平衡曝光。三个节点之间采用完全图结构,任何节点都可在推理中被回溯或跳过,从而让大模型根据上下文自动规划最优路径。
为了赋予模型「后悔」能力,我们额外实现了 Backward 功能节点。当大模型在反思阶段判定当前列表未能满足总体目标,可输出 “Backward” 指令撤销最近一次排序,并基于历史池重新分配权重;当模型认为已达到平衡,则输出 “Stop” 结束推理并返回最终列表。实践表明,这种显式的反思-回滚机制使得模型对冲突目标的协调更为稳健,长尾曝光率提升的同时,整体 TP99 延迟仅增加 6 毫秒,仍低于 50 毫秒业务阈值。
Prompt 工程是 LLM4Rerank 落地的关键。我们遵循论文模板,将「用户信息、候选集合、全局目标、历史重排」等要素填充进系统提示,再附加规范化的输出格式要求。模板中大量使用自然语言示例隐式教授模型如何计算 α-NDCG 或 MAD 等指标,并通过占位符枚举可选节点名称,引导模型在每一步输出下一个目标。与零样本直接排序相比,引入模板后的模型在三条公开数据集上 Recall@10 平均提升 3.2 个百分点,在 α-NDCG 上提升 6.5 个百分点。
AlignRec 与 LLM4Rerank 的协同工作流程采取「离线特征、在线串联」模式。离线阶段,AlignRec 每天增量训练并生成最新物品向量,向量经量化后写入 Faiss-HNSW 索引;在线阶段,请求进入系统后先走召回,得到千级候选列表;随后,候选与用户上下文一起组装成 LLM4Rerank Prompt,调用企业内部微调的 70 B 大模型执行推理;最终列表下发到前端。模型推理过程开启 KV-Cache 与 Prefix-Caching 两级缓存,热启动命中率在高峰期可达 92%,单请求平均 GPU 显存占用不足 1.5 GB。
为了评估 LLM4Rerank 的价值,我们复现了论文实验,并在自有电商日志上追加线上 A/B 测试。离线部分采用 Amazon-Baby、Sports、Electronics 三个数据集,保持 AlignRec 召回与 GMF 排序一致,以便公平比较。在 Recall@10、NDCG@10、α-NDCG@10 与 MAD 四项指标上,LLM4Rerank 均显著优于 CoCa、MARS 等最新重排序模型,其中在多目标综合指标 H-Score 上平均领先 9.8%。
线上实验持续两周,采样 5% 流量,目标人群涵盖新客与老客。结果显示,相较「AlignRec + 轻量 MLP 重排」基线,新方案在点击率提升 4.3% ,相对 GMV 提升 2.1%,长尾商品曝光提升 13.5%,而店铺层面的平均曝光差距缩小 18%。在用户体验侧,我们随机抽查 600 条会话并收集主观反馈,「推荐列表风格多样」「店铺分布更均衡」等评价


1196

被折叠的 条评论
为什么被折叠?



