ANIMATEDIFF: 无需特定微调,实现个性化文本到图像扩散模型的动画化

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

重磅更新AIGC数字人系列!今天为大家带来ANIMATEDIFF的深度解析。作为AI视频生成技术的先驱之作,这个模型相比其他AIGC视频生成方案更加简洁易懂。建议在掌握DDPM和Stable Diffusion原理后,循序渐进地学习这个经典模型。

1. 前言/动机

1.1 问题

为已有的高质量个性化的模型添加运动动态,使其生成动画(gif动图)
描述:
随着文本到图像(T2I)扩散模型(如 Stable Diffusion)以及相应个性化技术(如 DreamBooth 和 LoRA)的发展,每个人都可以以较低的成本将自己的想象转化为高质量的图像。然而,为已有的高质量个性化 T2I 模型添加运动动态,并使其能够生成动画,仍然是一个尚未解决的挑战
解决方案:
设计了一个即插即用的运动模块(motion module),可以集成到任何相同基础的T2I模型
优点:
即插即用, 一旦训练完成,该模块便可插入到任意个性化 T2I 模型中,从而构成一个个性化动画生成器。
创新点:

  • 提出AnimateDiff ——一个实用的框架,能够无需对模型进行特定微调,就为个性化的 T2I 模型赋予动画能力。 核心就是运动模块(motion module)
  • 提出MotionLoRA ——一种轻量级微调技术,用于帮助 AnimateDiff 的预训练运动模块适应新的运动模式(如不同的镜头类型),且训练成本和数据收集成本较低
    motion module可以从视频数据集中学习合理的运动先验

训练包含三个阶段:

  • 领域适配器微调:首先在基础 T2I 模型上微调一个“领域适配器”,使其视觉风格与目标视频数据集对齐。这一预处理步骤确保运动模块更专注于学习运动先验,而不是从训练视频中学习像素级细节。
  • 运动建模阶段:将基础 T2I 与领域适配器一起“扩展”成时序形式,并引入一个新初始化的运动模块。在保持领域适配器和基础模型权重不变的情况下,仅优化运动模块,使其能够学习具有泛化能力的运动先验。通过模块插入,该模块能够赋能其它个性化 T2I 模型,实现其在各自个性化风格下生成流畅、自然的动画。
  • MotionLoRA 微调:这一阶段旨在将预训练的运动模块适配到特定运动模式(如不同镜头风格)。文章使用 LoRA(Low-Rank Adaptation)进行轻量级微调,仅需大约 50 个参考视频和少量训练轮次。MotionLoRA 模型所需的额外存储空间大约只有 30MB,非常适合模型的快速分享。对于无法负担预训练成本但希望针对特效微调的用户来说,这是一个非常实用的方案。

目标:在不对模型进行特定微调的前提下,直接将已有的高质量个性化 T2I 模型转变为动画生成器。因为这种微调往往对普通用户来说,在算力和数据收集上是难以负担的。

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

bhoigu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值