山大软院22级项目实训--基于LLM的多模态推荐系统

引言

在这里插入图片描述

在推荐系统的发展史上,“召回—粗排—精排”的三段式架构曾如同一部经过反复验证的经典机器,其层层过滤的流水线为海量信息与有限注意力之间搭建起高效的桥梁。然而,当商品或内容由单一文本扩展为图像、音频、视频乃至跨模态交互事件,当用户画像从简单标签演进为多源实时感知,多模态信息激增所带来的语义复杂度已远远超出传统精排模型能承载的表征维度。与此同时,大模型技术的突破让语言成为一种全新“操作系统”:它能够接入多模态摘要、融合上下文并输出易于理解的自然语言解释,也能在 Few-Shot 甚至 Zero-Shot 的场景中快速适应新任务。从需求侧到技术侧的双重拉力促使业界重新审视那部经典机器——不是简单地在精排末端再加一层,而是主动抽离“粗排 + 语义重排序”这两个最具价值密度的环节,形成一种更灵活、更贴近业务迭代节奏的两阶段排序范式。

多模态冲击下三段式架构的失衡

传统三段式看似稳固,其实在多模态时代暴露出两大瓶颈。首先是“表示鸿沟”。当商品既包含高清图片又有长文本描述,甚至伴随短视频或 3D 预览,精排网络往往需要把所有模态拼接到同一向量空间再做点积或 MLP,这种早期融合的策略在维度爆炸与跨模态噪声面前步履维艰;一旦维度被压缩,模型又容易忽略细粒度视觉细节或文本语义,从而错过真正影响点击的关键特征。其次是“计算失衡”。为了追逐 CTR 或 CVR 的小数点后几位收益,精排网络被设计得越来越深,其推理延迟在多模态输入下呈指数级上升,直接威胁在线服务的 SLA。而粗排和召回层却依旧重用低维稀疏特征与轻量向量检索,导致整条链路像一辆前驱和后驱规格严重不对称的赛车:前段风驰电掣,末段却因负载过重而动力衰竭,最终所有优化都卡在精排最后几毫秒的尾巴难题里。

两阶段排序范式的提出

解决失衡并非推倒重来,而是拆分职责。粗排阶段专注于“高召回 + 低延迟”,只需要保证把潜在相关的 K 百个候选

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值