EMO2：基于末端执行器引导的音频驱动虚拟形象视频生成

原创

已于 2025-05-30 22:05:57 修改 · 2.6k 阅读

·

34

·

标签

#音视频 #人工智能 #深度学习 #神经网络 #阿里云

于 2025-05-30 22:01:34 首次发布

今天带来EMO2（全称End-Effector Guided Audio-Driven Avatar Video Generation）是阿里巴巴智能计算研究院研发的创新型音频驱动视频生成技术。该技术通过结合音频输入和静态人像照片，生成高度逼真且富有表现力的动态视频内容，值得一提的是目前阿里并没有开源这个项目，所以今天内容仅供学习（阿里的EMO一代到目前都还没有开源，所以等项目开源那是遥遥无期）欢迎大家再评论区讨论

项目官网: https://humanaigc.github.io/emote-portrait-alive-2/carxiv
技术论文: https://arxiv.org/pdf/2501.10687

1. 动机与问题

1.1 问题1：如何实现富有表现力的音画同步人体视频生成

研究背景：音频驱动人体视频生成技术旨在创建音画同步的面部表情与肢体动作，尽管在音频驱动面部表情生成和以人物为中心的视频合成方面已取得显著成果，但在实现富有表现力的音画同步人体视频生成，尤其是伴随语音的视频生成方面仍存在挑战
现状与挑战：现有方法主要聚焦于面部区域，忽略了上半身尤其是手部动作的建模，现有方法难以生成富有表现力，语义一致的全身动作

1.2 问题2：存在肢体动作丰富度不足或泛化能力有限等缺陷

分析原因：
1. 人体是一个具有高自由度的复杂多关节系统，其运动具有高度的时间依赖性与多样性。
2. 在像素空间或显式坐标空间中从音频直接预测全身动作，而音频与不同身体关节之间的相关性存在显著差异，所以容易出现动作僵硬、同步性不足等问题
  解决方案：
3. 借鉴机器人控制系统的“末端执行器”和机器人逆向运动学降低自由度，改进逆向运动学，提出“像素先于逆运动学”，这种方法能够重建完整人物角色，实现音频与嘴唇运动的同步，同时保持人体结构的合理性，从而生成连贯、自然的共语视频。
4. 不再直接从音频预测全身动作，专注于将音频映射到手部姿态，充分利用音频与手部动作的强相关性。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

bhoigu 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。