山大软院22级项目实训--基于LLM的多模态推荐系统

原创

已于 2025-06-13 21:54:45 修改 · 1k 阅读

标签

#人工智能 #算法 #推荐算法

于 2025-03-09 19:43:39 首次发布

引言

在这里插入图片描述

在推荐系统的发展史上，“召回—粗排—精排”的三段式架构曾如同一部经过反复验证的经典机器，其层层过滤的流水线为海量信息与有限注意力之间搭建起高效的桥梁。然而，当商品或内容由单一文本扩展为图像、音频、视频乃至跨模态交互事件，当用户画像从简单标签演进为多源实时感知，多模态信息激增所带来的语义复杂度已远远超出传统精排模型能承载的表征维度。与此同时，大模型技术的突破让语言成为一种全新“操作系统”：它能够接入多模态摘要、融合上下文并输出易于理解的自然语言解释，也能在 Few-Shot 甚至 Zero-Shot 的场景中快速适应新任务。从需求侧到技术侧的双重拉力促使业界重新审视那部经典机器——不是简单地在精排末端再加一层，而是主动抽离“粗排 + 语义重排序”这两个最具价值密度的环节，形成一种更灵活、更贴近业务迭代节奏的两阶段排序范式。

多模态冲击下三段式架构的失衡

传统三段式看似稳固，其实在多模态时代暴露出两大瓶颈。首先是“表示鸿沟”。当商品既包含高清图片又有长文本描述，甚至伴随短视频或 3D 预览，精排网络往往需要把所有模态拼接到同一向量空间再做点积或 MLP，这种早期融合的策略在维度爆炸与跨模态噪声面前步履维艰；一旦维度被压缩，模型又容易忽略细粒度视觉细节或文本语义，从而错过真正影响点击的关键特征。其次是“计算失衡”。为了追逐 CTR 或 CVR 的小数点后几位收益，精排网络被设计得越来越深，其推理延迟在多模态输入下呈指数级上升，直接威胁在线服务的 SLA。而粗排和召回层却依旧重用低维稀疏特征与轻量向量检索，导致整条链路像一辆前驱和后驱规格严重不对称的赛车：前段风驰电掣，末段却因负载过重而动力衰竭，最终所有优化都卡在精排最后几毫秒的尾巴难题里。