文章总结与翻译
一、主要内容
本文聚焦文本到视频生成模型存在的生成视频缺乏美学吸引力、与文本提示对齐度不足等问题,核心解决思路是利用多模态大语言模型(MLLMs)构建大规模偏好数据集,并基于此训练专属奖励模型,以提升模型生成质量。
- 问题背景:现有文本到视频生成模型(如Sora)依赖质量参差不齐的大规模数据集,导致生成结果存在视觉效果差、文本对齐不足等缺陷;传统基于人类反馈的强化学习(RLHF)因人工标注成本高,缺乏大规模视频偏好数据集,且图像领域的奖励模型无法适配视频的时序特征评估需求。
- 核心贡献:
- 构建了大规模细粒度视频偏好数据集VIDEOPREFER,包含14K提示词、54K视频和135K偏好标注,融合模型生成视频与真实人类拍摄视频,通过GPT-4V标注,兼具低成本、可扩展性和高泛化性。
- 提出首个文本到视频领域通用奖励模型VIDEORM,基于HPS v2优化,融入时序移位和时序Transformer模块,能同时捕捉单帧质量与视频时序动态特征。
- 设计DRaFT-V算法,将VIDEORM集成到强化学习框架中,实现对文本到视频生成模型的高效微调,解决了图像领域奖励模型适配视频时的效率低、效果差问题。
- 实验验证:通过偏好预测准确率、人类评估、效率测试等实验,验证了VIDEOPREFER的高质量标注特性,以及VIDEORM在视频偏好评估上优于现有图像领域奖励模型;DRaFT-V微调后的模型在文本对齐度、

订阅专栏 解锁全文

507

被折叠的 条评论
为什么被折叠?



