EchoMimicV2：阿里推出的开源数字人项目，能生成完整数字人半身动画

最新推荐文章于 2026-04-12 11:27:08 发布

原创

最新推荐文章于 2026-04-12 11:27:08 发布 · 4k 阅读

标签

#开源 #人工智能

收录于

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：生成音频驱动的半身动画，支持中文和英文。
技术：采用音频-姿势动态协调策略，增强音频与动画的同步性。
应用：适用于虚拟主播、在线教育、娱乐和游戏等多个场景。

正文（附运行示例）

EchoMimicV2 是什么

EchoMimicV2是阿里蚂蚁集团推出的半身人体AI数字人项目，基于参考图片、音频剪辑和手部姿势序列生成高质量动画视频，确保音频内容与半身动作的一致性。EchoMimicV2在前代EchoMimicV1生成逼真人头动画的基础上，效果得到进一步提升，现在能生成完整的数字人半身动画，实现从中英文语音到动作的无缝转换。

公众号: 蚝油菜花 - echomimic_v2

该项目采用音频-姿势动态协调策略，包括姿势采样和音频扩散，增强细节表现力并减少条件冗余。EchoMimicV2用头部局部注意力技术整合头部数据，设计特定阶段去噪损失优化动画质量。

EchoMimicV2 的主要功能

音频驱动的动画生成：用音频剪辑驱动人物的面部表情和身体动作，实现音频与动画的同步。
半身动画制作：从仅生成头部动画扩展到生成包括上半身的动画。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

蚝油菜花

关注关注

17
点赞
踩
25

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

EchoMimicV2部署教程——AI 数字人半身动画超强引擎

SJJS_1的博客

01-22

3845

由阿里推出的半身人体AI数字人项目EchoMimicV2 部署教程来啦，可实现从语音到半身动作的精准同步，开启全新数字交互体验！快跟着小编看看吧~

1 条评论您还未登录，请先登录后发表或查看评论

阿里发布 EchoMimicV2 ：从数字脸扩展到数字人 可以通过图片+音频生成半身动画视频

更多：qianchilang.com

11-26

2658

EchoMimicV2 是由阿里蚂蚁集团推出的开源数字人项目，旨在生成高质量的数字人半身动画视频。：EchoMimicV2 能够使用音频剪辑驱动人物的面部表情和身体动作，实现音频与动画的同步。：项目从仅生成头部动画扩展到生成包括上半身的动画。：EchoMimicV2 减少了动画生成过程中所需的复杂条件，让动画制作更为简便。：基于手部姿势序列与音频的结合，生成自然且同步的手势和面部表情。：支持中文和英文驱动，根据语言内容生成相应的动画。：包括姿势采样和音频扩散，增强细节表现力并减少条件冗余。

解锁EchoMimicV2：5个专业技巧打造栩栩如生的半身体动画

热门推荐

zzz777qqq的博客

12-11

1万+

（全套教程文末领取哈）

EchoMimicV2数字人版本,自定义姿态,图片转数字人,音频驱动口型

嘟嘟的博客

11-23

2909

哈喽！EchoMimic更新咯，本次EchoMimicV2版本增加了数字人功能，即输入一张图片、一段音频、一段姿势即可生成一段数字人视频。如果第一次了解这个项目的朋友可以看下往期文章，看下之前的V1版本简单吐槽下，在我刚部署项目的时候,官方还没推出gradio界面的代码，于是着手开始写一套，等我写完了，测试完了…GitHub上又有gradio相关的代码了…真的是太速度了！吐血…不过没关系，也算同步进行了…我在使用的时候也发现了这个版本的一些问题，并做了一些改动，在下面有讲到。

EchoMimicV2：迈向引人注目、简化的半身人类动画

bhoigu的博客

06-02

3133

描述当前常用的控制条件（如文本、音频、姿势、光流、动作图）为生成逼真动画提供了良好基础，但引入更多的辅助条件会导致两个问题：一是多条件之间协调性差，造成训练不稳定；二是条件注入模块结构复杂，推理延迟显著增加。解决方案采用音频-姿势动态协调的训练策略以调节音频和姿势两个条件输入，并减少姿势条件的冗余性。同时引入PHD Loss(阶段性损失)以取代对冗余控制条件的依赖。优点：支持不同尺寸图片输入，背景简洁的半身露手图片效果较好，图像和手势对齐的时候效果最好，支持多种格式音频输入（mp3和wav）

【大模型系列篇】AI半身数字人开箱体验——开源项目EchoMimicV2

木亦汐丫

12-11

3481

EchoMimicV2是阿里蚂蚁集团推出的半身人体AI数字人项目，基于参考图片、音频剪辑和手部姿势序列生成高质量动画视频，确保音频内容与半身动作的一致性。EchoMimicV2在前代EchoMimicV1生成逼真人头动画的基础上，效果得到进一步提升，现在能生成完整的数字人半身动画，实现从中英文语音到动作的无缝转换。该项目采用音频-姿势动态协调策略，包括姿势采样和音频扩散，增强细节表现力并减少条件冗余。并使用头部局部注意力技术整合头部数据，设计特定阶段去噪损失优化动画质量。

EchoMimicV2,Audio Driven加速模型，推理速度大幅提升

嘟嘟的博客

07-28

2350

EchoMimicV2如何修改acc加速，V2版本整合包已发布。

小白部署echomimic_v2，图生数字人

weixin_50735744的博客

11-21

5004

echomimic是阿里推出的开源数字人项目，赋予静态图像以生动语音和表情，而echomimicV2迈向引人注目的、简化的和半身体的人体动画.

阿里开源半身驱动数字人EchoMimicV2，全身指日可待～

CherryXieのblog

03-26

1955

EchoMimicV2 是 EchoMimic 的第二代版本，专注于音频驱动的半身人物动画生成，由蚂蚁集团团队开发，已被 CVPR 2025 接受。用户查询其研发背景和架构原理，本报告基于 2025 年 3 月 24 日的最新信息，从研究背景、技术架构和创新点等角度进行详细分析。

升级版本的EchoMimic来了！一张半身照+音频，就能生成带手势的数字人视频。

AIGC Studio：分享AIGC前沿知识和好玩应用，公众号同名。

11-26

1893

近期关于人体动画的研究通常涉及音频、姿势或运动图条件，从而实现逼真的动画质量。然而，这些方法往往面临实际挑战，因为额外的控制条件、繁琐的条件注入模块或头部区域驱动的限制。因此，是否有可能在简化不必要条件的同时实现引人注目的半身人体动画。为此，论文提出了一种半身人体动画方法称为EchoMimicV2，该方法利用一种新颖的音频姿势动态协调策略，包括姿势采样和音频扩散，来增强半身细节、面部和手势表现力，同时减少条件冗余。

阿里发布 EchoMimicV2：从数字人头到数字人的飞跃

weixin_51674085的博客

11-25

572

功能从数字人头扩展到了数字人。只需输入一张图片、一段手势视频和一段音频，即可生成数字人。支持中英文驱动，画面稳定性非常好。群里之前有佬友在寻找开源数字人方案，这不就来了吗？主要用于生成数字人头。

【大模型】数字人 EchoMimicV2 的环境配置和使用

magic_ll的博客

03-25

2965

它能够让用户仅通过简单的音频输入，生成与声音内容相匹配的动画效果，使虚拟人物看起来更加生动。例如，在在线教育场景中，它可以通过录制好的讲解音频和教师的人物形象，生成与之同步的动态教学视频，为远程教学提供更加生动的视觉体验。在工程路径【./echomimic_v2/assets/halfbody_demo】下，给出了官方示例的图片、音频、动作。补充，当我们删除【pretrained_weights】，仅仅删除了软连接，不会影响到连接路径下的文件。该工程上传的音频，支持的是 wav格式。

阿里开源最强数字人工具 EchoMimicV2，本地部署（一）

缘分天空的专栏

12-22

4503

EchoMimicV2是阿里推出的半身人体AI数字人项目，基于参考图片、音频剪辑和手部姿势序列生成高质量动画视频，确保音频内容与半身动作的一致性。现在本地部署，安装体验一下。

【Windows系统部署Echomimic_v2 】

kayden888

01-19

1294

1、安装anaconda（不展开，网上教程很多也很详细，可自行上网查找https://blog.csdn.net/qq_44000789/article/details/142214660）（“F:\1AI\Echomimic_v2_Windows\Echomimic_v2_Windows\echomimic_v2\echomimic\”改成自己的路径）（“F:\1AI\Echomimic_v2_Windows\Echomimic_v2_Windows”改成你自己的文件夹路径）①在默认路径中创建并激活。

CVPR 2025论文分享｜如何生成逼真的半身数字人？EchoMimicV2来帮你！

audyxiao001的博客

07-25

1342

本推文介绍了EchoMimicV2，这是一种利用简化条件生成逼真半身人体动画的框架，希望能为读者带来数字人领域的前沿知识。

EchoMimicV2: Towards Striking, Simplified, ad Semi-Body Human Animationn

志在山顶的人，不会贪念山腰的风景

12-19

1091

姿势采样初期与迭代阶段提升性能，APDH 用单手姿势实现稳定动画；如手部动作更自然流畅、关节活动精准，面部表情与整体姿态及音频配合协调，细节丰富真实，合成人物似从同一源图像生成，无违和感与身份偏差，表明其在半身动画生成质量上具优势。动作契合音频节奏韵律与情感内涵，速度、力度及幅度随音频变化合理，无卡顿、生硬或不连贯状况，体现其音频驱动半身动画技术的先进性。输入多元变化时，人物动画稳定性与准确性佳，音频与动作同步紧密，不同角色形象塑造鲜活、手势表意清晰准确，展示其在复杂输入下的强适应性与高泛化能力。

DeepSeek-VL2实战指南：一步步构建您自己的智能视觉问答系统！

SJJS_1的博客

02-07

4621

DeepSeek-VL2，这是一系列先进的大型混合专家 (MoE) 视觉语言模型，其显著改进了其前身 DeepSeek-VL。DeepSeek-VL2 在各种任务中都表现出卓越的能力，包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉基础。我们的模型系列由三个变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2，分别具有 1.0B、2.8B 和 4.5B 激活参数。

最新口型同步技术EchoMimic部署

m0_71062934的博客

08-05

4361

EchoMimic是一个由蚂蚁集团开发的AI项目，主要用于生成高质量的数字人像动画。这个项目特别之处在于它能够根据人像的面部特征和音频内容来帮助人物“对口型”，即让静态的照片或者图像中的角色看起来像是在说话或唱歌，生成的视频效果既稳定又自然。 EchoMimic项目通过音频驱动和面部标志点驱动的结合，解决了传统方法中存在的不稳定性和不自然性的问题。 EchoMimic通过深度学习模型，实现了音频和面部标志点的双重训练，生成的动画不仅在视觉上逼真，而且在语义上与音频内容高度一致。