在过去几周的工作中,我们围绕MicroLens、PixelRec、Amazon等多模态推荐系统数据集展开数据清洗、预处理、召回模块构建等一系列实践操作。随着对多模态数据结构和处理方式的逐步深入,我们团队开始进一步思考:如果把推荐系统中的多模态表征能力放到更强大的框架中,如当下火热的多模态大语言模型(Multimodal Large Language Models, MLLMs)中,会不会带来更加泛化且灵活的解决方案?
带着这个问题,本周我们系统阅读了四篇发表在ICLR 2024顶会上的代表性多模态LLM论文:NExT-GPT、DreamLLM、LaVIT、MoE-LLaVA,分别从“任意模态处理能力”“生成理解协同”“统一视觉语言预训练”“稀疏专家结构”等方向,展现了当前MLLM的发展趋势和关键创新。本文将逐一梳理它们的核心思想,结合我们的推荐系统实践,探讨其中对我们项目的潜在启示与借鉴价值。
一、NExT-GPT:实现“任意输入-任意输出”的多模态对齐梦想

1.1 核心观点
NExT-GPT尝试解决的,是一个几乎“终极”的多模态目标:模型能同时理解并生成文本、图像、音频、视频等任意模态的信息。它采用了模块化的架构——基于预训练LLM主体,加入不同模态的Adapter和多种解码器,再通过引入“MosIT”(模态切换指令调优)机制来实现灵活地模态互通。
更重要的是,NExT-GPT不追求完全重训整个LLM,而是仅通过调整1%的参数完成适配,显著降低了训练成本。
1.2 与项目关联
我们目前的多模态推荐系统主要以文本(如商品描述、评论)和图像(商品图)为主,而NExT-GPT展示了一种完全解耦、统一处理所有模态的方法。如果未来我们希望构建一个支持更丰富用户行为理解的系统,比如分析用户上传视频、语音等内容,那NExT-GPT所提出的“任意模态感知-任意模态生成”路线就是极具启发性的参考方向。
二、DreamLLM:理解与创作双轮驱动的多模态通才
2.1 核心观点
DreamLLM强调“理解”与“创造”的协同关系。传统的MLLM往往只强调感知理解,但忽视内容生成的能力。而DreamLLM采用了“原始多模态空间采样”方式,直接在图像-文本空间联合建模,不借助外部特征提取器,从而实现更自然的文本-图像生成。
此外,DreamLLM支持生成“交错内容”(Interleaved Document),即图文混排的自由结构内容,是向AI内容创作方向迈出的重要一步。

2.2 与项目关联
虽然我们当下的目标是推荐而非生成,但DreamLLM的理念仍然具有启发意义。推荐的本质是理解用户意图并生成反馈内容——推荐结果。而一个系统如果不仅能理解图片和文本,还能“创作”商品描述、甚至生成个性化商品封面,那么它就能更贴合用户的审美与需求。


4636

被折叠的 条评论
为什么被折叠?



