博客三：实训中的一些多模态推荐论文分享

原创

已于 2025-06-11 14:40:00 修改 · 1.1k 阅读

标签

于 2025-04-26 15:45:00 首次发布

在过去几周的工作中，我们围绕MicroLens、PixelRec、Amazon等多模态推荐系统数据集展开数据清洗、预处理、召回模块构建等一系列实践操作。随着对多模态数据结构和处理方式的逐步深入，我们团队开始进一步思考：如果把推荐系统中的多模态表征能力放到更强大的框架中，如当下火热的多模态大语言模型（Multimodal Large Language Models, MLLMs）中，会不会带来更加泛化且灵活的解决方案？

带着这个问题，本周我们系统阅读了四篇发表在ICLR 2024顶会上的代表性多模态LLM论文：NExT-GPT、DreamLLM、LaVIT、MoE-LLaVA，分别从“任意模态处理能力”“生成理解协同”“统一视觉语言预训练”“稀疏专家结构”等方向，展现了当前MLLM的发展趋势和关键创新。本文将逐一梳理它们的核心思想，结合我们的推荐系统实践，探讨其中对我们项目的潜在启示与借鉴价值。

一、NExT-GPT：实现“任意输入-任意输出”的多模态对齐梦想

1.1 核心观点

NExT-GPT尝试解决的，是一个几乎“终极”的多模态目标：模型能同时理解并生成文本、图像、音频、视频等任意模态的信息。它采用了模块化的架构——基于预训练LLM主体，加入不同模态的Adapter和多种解码器，再通过引入“MosIT”（模态切换指令调优）机制来实现灵活地模态互通。

更重要的是，NExT-GPT不追求完全重训整个LLM，而是仅通过调整1%的参数完成适配，显著降低了训练成本。

1.2 与项目关联

我们目前的多模态推荐系统主要以文本（如商品描述、评论）和图像（商品图）为主，而NExT-GPT展示了一种完全解耦、统一处理所有模态的方法。如果未来我们希望构建一个支持更丰富用户行为理解的系统，比如分析用户上传视频、语音等内容，那NExT-GPT所提出的“任意模态感知-任意模态生成”路线就是极具启发性的参考方向。