今天带来EMO2(全称End-Effector Guided Audio-Driven Avatar Video Generation)是阿里巴巴智能计算研究院研发的创新型音频驱动视频生成技术。该技术通过结合音频输入和静态人像照片,生成高度逼真且富有表现力的动态视频内容,值得一提的是目前阿里并没有开源这个项目,所以今天内容仅供学习(阿里的EMO一代到目前都还没有开源,所以等项目开源那是遥遥无期)欢迎大家再评论区讨论
- 项目官网: https://humanaigc.github.io/emote-portrait-alive-2/carxiv
- 技术论文: https://arxiv.org/pdf/2501.10687
1. 动机与问题
1.1 问题1:如何实现富有表现力的音画同步人体视频生成
- 研究背景:音频驱动人体视频生成技术旨在创建音画同步的面部表情与肢体动作,尽管在音频驱动面部表情生成和以人物为中心的视频合成方面已取得显著成果,但在实现富有表现力的音画同步人体视频生成,尤其是伴随语音的视频生成方面仍存在挑战
- 现状与挑战:现有方法主要聚焦于面部区域,忽略了上半身尤其是手部动作的建模,现有方法难以生成 富有表现力,语义一致的全身动作
1.2 问题2:存在肢体动作丰富度不足或泛化能力有限等缺陷
- 分析原因:
- 人体是一个具有高自由度的复杂多关节系统,其运动具有高度的时间依赖性与多样性。
- 在像素空间或显式坐标空间中从音频直接预测全身动作,而音频与不同身体关节之间的相关性存在显著差异,所以容易出现动作僵硬、同步性不足等问题
解决方案: - 借鉴机器人控制系统的“末端执行器”和机器人逆向运动学降低自由度,改进逆向运动学,提出“像素先于逆运动学”,这种方法能够重建完整人物角色,实现音频与嘴唇运动的同步,同时保持人体结构的合理性,从而生成连贯、自然的共语视频。
- 不再直接从音频预测全身动作,专注于将音频映射到手部姿态,充分利用音频与手部动作的强相关性。


599

被折叠的 条评论
为什么被折叠?



