2025_NIPS_Boosting Text-to-Video Generative Model with MLLMs Feedback

最新推荐文章于 2026-06-20 23:40:47 发布

原创最新推荐文章于 2026-06-20 23:40:47 发布 · 22 阅读

·

0

·

标签

#boosting #集成学习 #机器学习

LLM Daily 同时被 2 个专栏收录

1153 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

983 篇文章

订阅专栏

文章总结与翻译

一、主要内容

本文聚焦文本到视频生成模型存在的生成视频缺乏美学吸引力、与文本提示对齐度不足等问题，核心解决思路是利用多模态大语言模型（MLLMs）构建大规模偏好数据集，并基于此训练专属奖励模型，以提升模型生成质量。

问题背景：现有文本到视频生成模型（如Sora）依赖质量参差不齐的大规模数据集，导致生成结果存在视觉效果差、文本对齐不足等缺陷；传统基于人类反馈的强化学习（RLHF）因人工标注成本高，缺乏大规模视频偏好数据集，且图像领域的奖励模型无法适配视频的时序特征评估需求。
核心贡献：
- 构建了大规模细粒度视频偏好数据集VIDEOPREFER，包含14K提示词、54K视频和135K偏好标注，融合模型生成视频与真实人类拍摄视频，通过GPT-4V标注，兼具低成本、可扩展性和高泛化性。
- 提出首个文本到视频领域通用奖励模型VIDEORM，基于HPS v2优化，融入时序移位和时序Transformer模块，能同时捕捉单帧质量与视频时序动态特征。
- 设计DRaFT-V算法，将VIDEORM集成到强化学习框架中，实现对文本到视频生成模型的高效微调，解决了图像领域奖励模型适配视频时的效率低、效果差问题。
实验验证：通过偏好预测准确率、人类评估、效率测试等实验，验证了VIDEOPREFER的高质量标注特性，以及VIDEORM在视频偏好评估上优于现有图像领域奖励模型；DRaFT-V微调后的模型在文本对齐度、

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。