EMO2:基于末端执行器引导的音频驱动虚拟形象视频生成

今天带来EMO2(全称End-Effector Guided Audio-Driven Avatar Video Generation)是阿里巴巴智能计算研究院研发的创新型音频驱动视频生成技术。该技术通过结合音频输入和静态人像照片,生成高度逼真且富有表现力的动态视频内容,值得一提的是目前阿里并没有开源这个项目,所以今天内容仅供学习(阿里的EMO一代到目前都还没有开源,所以等项目开源那是遥遥无期)欢迎大家再评论区讨论

1. 动机与问题

1.1 问题1:如何实现富有表现力的音画同步人体视频生成

  • 研究背景:音频驱动人体视频生成技术旨在创建音画同步的面部表情与肢体动作,尽管在音频驱动面部表情生成和以人物为中心的视频合成方面已取得显著成果,但在实现富有表现力的音画同步人体视频生成,尤其是伴随语音的视频生成方面仍存在挑战
  • 现状与挑战:现有方法主要聚焦于面部区域,忽略了上半身尤其是手部动作的建模,现有方法难以生成 富有表现力,语义一致的全身动作

1.2 问题2:存在肢体动作丰富度不足或泛化能力有限等缺陷

  • 分析原因:
    1. 人体是一个具有高自由度的复杂多关节系统,其运动具有高度的时间依赖性与多样性。
    2. 在像素空间或显式坐标空间中从音频直接预测全身动作,而音频与不同身体关节之间的相关性存在显著差异,所以容易出现动作僵硬、同步性不足等问题
      解决方案:
    3. 借鉴机器人控制系统的“末端执行器”和机器人逆向运动学降低自由度,改进逆向运动学,提出“像素先于逆运动学”,这种方法能够重建完整人物角色,实现音频与嘴唇运动的同步,同时保持人体结构的合理性,从而生成连贯、自然的共语视频。
    4. 不再直接从音频预测全身动作,专注于将音频映射到手部姿态,充分利用音频与手部动作的强相关性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

bhoigu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值