2025_NIPS_Co-Reinforcement Learning for Unified Multimodal Understanding and Generation

原创于 2026-02-24 11:00:50 发布 · 164 阅读

·

3

·

标签

#语言模型 #人工智能

LLM Daily 同时被 3 个专栏收录

1138 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

970 篇文章

订阅专栏

51 篇文章

订阅专栏

在这里插入图片描述

一、文章主要内容总结

该研究聚焦于统一多模态大语言模型（ULMs）的理解与生成能力协同提升，提出了一种基于协同强化学习（CoRL）的框架，核心内容如下：

研究背景：现有多模态模型的强化学习应用多集中于单任务（如理解任务的推理增强），而ULMs的跨任务协同优化（同时提升理解与生成能力）尚未被充分探索，且依赖大规模有监督数据的问题亟待解决。
核心框架：CoRL采用“基础构建-专项优化”两阶段范式：
- 第一阶段（统一RL阶段）：基于群体相对策略优化（GRPO）算法，融合双向循环一致性奖励、文本-图像匹配奖励等可验证奖励，对理解和生成任务进行联合优化，奠定跨任务协同基础。
- 第二阶段（精细化RL阶段）：针对文本到图像生成、多模态问答（选择题/开放式问题）设计专项奖励和数据集，进行任务特异性增强，同时引入KL散度约束保证优化稳定性。
实验验证：以Janus-Pro为基线模型，训练得到ULM-R1。在3个文本到图像生成数据集（GenEval、WISE、DPG-Bench）上平均提升7%，在9个多模态理解基准（MMMU、WeMath、LogicVista等）上平均提升23%，尤其在数学推理（WeMath +15.2）和逻辑推理（LogicVista +10.6）任务中表现突出。<

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。