2025_NIPS_Boosting Text-to-Video Generative Model with MLLMs Feedback

文章总结与翻译

一、主要内容

本文聚焦文本到视频生成模型存在的生成视频缺乏美学吸引力、与文本提示对齐度不足等问题,核心解决思路是利用多模态大语言模型(MLLMs)构建大规模偏好数据集,并基于此训练专属奖励模型,以提升模型生成质量。

  1. 问题背景:现有文本到视频生成模型(如Sora)依赖质量参差不齐的大规模数据集,导致生成结果存在视觉效果差、文本对齐不足等缺陷;传统基于人类反馈的强化学习(RLHF)因人工标注成本高,缺乏大规模视频偏好数据集,且图像领域的奖励模型无法适配视频的时序特征评估需求。
  2. 核心贡献
    • 构建了大规模细粒度视频偏好数据集VIDEOPREFER,包含14K提示词、54K视频和135K偏好标注,融合模型生成视频与真实人类拍摄视频,通过GPT-4V标注,兼具低成本、可扩展性和高泛化性。
    • 提出首个文本到视频领域通用奖励模型VIDEORM,基于HPS v2优化,融入时序移位和时序Transformer模块,能同时捕捉单帧质量与视频时序动态特征。
    • 设计DRaFT-V算法,将VIDEORM集成到强化学习框架中,实现对文本到视频生成模型的高效微调,解决了图像领域奖励模型适配视频时的效率低、效果差问题。
  3. 实验验证:通过偏好预测准确率、人类评估、效率测试等实验,验证了VIDEOPREFER的高质量标注特性,以及VIDEORM在视频偏好评估上优于现有图像领域奖励模型;DRaFT-V微调后的模型在文本对齐度、
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值