2025_NIPS_Co-Reinforcement Learning for Unified Multimodal Understanding and Generation

在这里插入图片描述

一、文章主要内容总结

该研究聚焦于统一多模态大语言模型(ULMs)的理解与生成能力协同提升,提出了一种基于协同强化学习(CoRL)的框架,核心内容如下:

  1. 研究背景:现有多模态模型的强化学习应用多集中于单任务(如理解任务的推理增强),而ULMs的跨任务协同优化(同时提升理解与生成能力)尚未被充分探索,且依赖大规模有监督数据的问题亟待解决。
  2. 核心框架:CoRL采用“基础构建-专项优化”两阶段范式:
    • 第一阶段(统一RL阶段):基于群体相对策略优化(GRPO)算法,融合双向循环一致性奖励、文本-图像匹配奖励等可验证奖励,对理解和生成任务进行联合优化,奠定跨任务协同基础。
    • 第二阶段(精细化RL阶段):针对文本到图像生成、多模态问答(选择题/开放式问题)设计专项奖励和数据集,进行任务特异性增强,同时引入KL散度约束保证优化稳定性。
  3. 实验验证:以Janus-Pro为基线模型,训练得到ULM-R1。在3个文本到图像生成数据集(GenEval、WISE、DPG-Bench)上平均提升7%,在9个多模态理解基准(MMMU、WeMath、LogicVista等)上平均提升23%,尤其在数学推理(WeMath +15.2)和逻辑推理(LogicVista +10.6)任务中表现突出。<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值