EchoMimicV3: 13亿参数即可实现统一多模态、多任务人体动画生成

孟让¹ 王艳吴伟鹏郑若冰李宇明² 马晨光²

支付宝终端技术部，蚂蚁集团

¹项目负责人 ²通讯作者

📣 更新日志

[2026.01.22] 🔥 我们更新了 EchoMimicV3-Flash 模型和代码

🚀 8 步即可生成高质量结果，远超 V3-preview 表现
🧩 无需人脸位置掩码，流程更简洁，鲁棒性更强
💾 需 12G 显存
✅ 支持最大 768×768 分辨率生成

[2025.08.12] 🔥 仅需12G显存生成视频, 量化版本GradioUI发布。查看教程。感谢@gluttony-10贡献。
[2025.08.12] 🔥 EchoMimicV3支持16G显存，使用ComfyUI. 感谢 @smthemex的贡献。
[2025.08.10] 🔥 GradioUI 已发布，感谢 @gluttony-10 的贡献。
[2025.08.09] 🔥 我们在 ModelScope 上发布了模型。
[2025.08.08] 🔥 我们在 Huggingface 上发布了代码和模型。
[2025.07.08] 🔥 我们的论文在 arxiv 上公开。

🌅 示例展示

teaser_github.mp4

hoi_github.mp4

中文驱动效果

01.mp4

02.mp4

03.mp4

04.mp4

更多演示视频，请访问项目主页

快速开始

环境配置

测试系统环境：Centos 7.2/Ubuntu 22.04, Cuda >= 12.1
测试 GPU：A100(80G) / RTX4090D (24G) / V100(16G)
测试 Python 版本：3.10 / 3.11

🛠️ 安装

1. 创建 conda 环境

conda create -n echomimic_v3 python=3.10
conda activate echomimic_v3

2. 安装其他依赖

pip install -r requirements.txt

🧱 模型准备

模型名称	下载链接	备注
Wan2.1-Fun-1.3B-InP	🤗 Huggingface	基础模型
wav2vec2-base	🤗 Huggingface	音频编码器
chinese-wav2vec2-base	🤗 Huggingface	Flash的音频编码器
EchoMimicV3-preview	🤗 Huggingface	preview的权重
EchoMimicV3-preview	🤗 ModelScope	preview的权重
EchoMimicV3-Flash	🤗 Huggingface	Flash的权重

-- EchoMimicV3-flash-pro权重文件组织如下：

./flash-pro/
├── Wan2.1-Fun-V1.1-1.3B-InP
├── chinese-wav2vec2-base
└── transformer
    └── diffusion_pytorch_model.safetensors

-- EchoMimicV3-preview权重文件组织如下：

./preview/
├── Wan2.1-Fun-V1.1-1.3B-InP
├── wav2vec2-base-960h
└── transformer
    └── diffusion_pytorch_model.safetensors

🔑 快速推理 EchoMimicV3-flash-pro

bash run_flash_pro.sh

🔑 快速推理 EchoMimicV3-preview

python infer_preview.py

🔑 快速推理preview量化版本

python app_mm.py

提示

音频 CFG：音频 CFG audio_guidance_scale 最佳范围为 2~3。增加音频 CFG 值可以改善唇同步效果，减少音频 CFG 值可以提高视觉质量。- 文本 CFG：文本 CFG `gu
idance_scale` 最佳范围为 3~6。增加文本 CFG 值可以更好地遵循提示词，减少文本 CFG 值可以提高视觉质量。
TeaCache：teacache_threshold 的最佳范围为 0~0.1。
采样步数：头部动画为 5 步，全身动作为 15~25 步。
长视频生成：如果需要生成超过 138 帧的视频，可以使用长视频 CFG。
尝试降低partial_video_length节省显存。

📝 待办事项

状态	里程碑
✅	EchoMimicV3 推理代码已发布至 GitHub
✅	EchoMimicV3-preview 模型已发布至 HuggingFace
✅	EchoMimicV3-preview 模型已发布至 ModelScope
🚀	在线体验版
🚀	英文和中文预训练模型（Preview 版本）已发布至 ModelScope
🚀	英文和中文预训练模型（720P）已发布至 HuggingFace
🚀	英文和中文预训练模型（720P）已发布至 ModelScope
🚀	EchoMimicV3 训练代码已发布至 GitHub

🚀 EchoMimic 系列

EchoMimicV3: 13亿参数即可实现统一多模态、多任务人体动画生成。GitHub
EchoMimicV2: 面向震撼、简化、半身人体动画生成。GitHub
EchoMimicV1: 基于可编辑关键点条件的逼真语音驱动肖像动画生成。GitHub

📒 引用

如果我们的工作对您的研究有帮助，请引用我们的论文：

@misc{meng2025echomimicv3,
  title={EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation},
  author={Rang Meng, Yan Wang, Weipeng Wu, Ruobing Zheng, Yuming Li, Chenguang Ma},
  year={2025},
  eprint={2507.03905},
  archivePrefix={arXiv}
}

📜 许可证

本仓库中的模型采用 Apache 2.0 许可证。我们不对您生成的内容主张任何权利，赋予您自由使用的权利，但您的使用需遵守该许可证的规定。您需对模型的使用负全责，不得用于违反法律法规、伤害个人或群体、传播有害个人信息、散布虚假信息或针对弱势群体的行为。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

EchoMimicV3: 13亿参数即可实现统一多模态、多任务人体动画生成

📣 更新日志

🌅 示例展示

中文驱动效果

快速开始

环境配置

🛠️ 安装

1. 创建 conda 环境

2. 安装其他依赖

🧱 模型准备

🔑 快速推理 EchoMimicV3-flash-pro

🔑 快速推理 EchoMimicV3-preview

🔑 快速推理preview量化版本

提示

📝 待办事项

🚀 EchoMimic 系列

📒 引用

📜 许可证

🌟 Star 历史

FilesExpand file tree

README_zh.md

Latest commit

History

README_zh.md

File metadata and controls

EchoMimicV3: 13亿参数即可实现统一多模态、多任务人体动画生成

📣 更新日志

🌅 示例展示

中文驱动效果

快速开始

环境配置

🛠️ 安装

1. 创建 conda 环境

2. 安装其他依赖

🧱 模型准备

🔑 快速推理 EchoMimicV3-flash-pro

🔑 快速推理 EchoMimicV3-preview

🔑 快速推理preview量化版本

提示

📝 待办事项

🚀 EchoMimic 系列

📒 引用

📜 许可证

🌟 Star 历史