支付宝终端技术部,蚂蚁集团
1项目负责人 2通讯作者
[2026.01.22] 🔥 我们更新了 EchoMimicV3-Flash 模型和代码
- 🚀 8 步即可生成高质量结果,远超 V3-preview 表现
- 🧩 无需人脸位置掩码,流程更简洁,鲁棒性更强
- 💾 需 12G 显存
- ✅ 支持最大 768×768 分辨率生成
- [2025.08.12] 🔥 仅需12G显存生成视频, 量化版本GradioUI发布。 查看 教程。感谢@gluttony-10贡献。
- [2025.08.12] 🔥 EchoMimicV3支持16G显存,使用ComfyUI. 感谢 @smthemex的贡献。
- [2025.08.10] 🔥 GradioUI 已发布,感谢 @gluttony-10 的贡献。
- [2025.08.09] 🔥 我们在 ModelScope 上发布了 模型。
- [2025.08.08] 🔥 我们在 Huggingface 上发布了 代码 和 模型。
- [2025.07.08] 🔥 我们的 论文 在 arxiv 上公开。
teaser_github.mp4 |
hoi_github.mp4 |
01.mp4 |
02.mp4 |
03.mp4 |
04.mp4 |
更多演示视频,请访问项目主页
- 测试系统环境:Centos 7.2/Ubuntu 22.04, Cuda >= 12.1
- 测试 GPU:A100(80G) / RTX4090D (24G) / V100(16G)
- 测试 Python 版本:3.10 / 3.11
conda create -n echomimic_v3 python=3.10
conda activate echomimic_v3
pip install -r requirements.txt
| 模型名称 | 下载链接 | 备注 |
|---|---|---|
| Wan2.1-Fun-1.3B-InP | 🤗 Huggingface | 基础模型 |
| wav2vec2-base | 🤗 Huggingface | 音频编码器 |
| chinese-wav2vec2-base | 🤗 Huggingface | Flash的音频编码器 |
| EchoMimicV3-preview | 🤗 Huggingface | preview的权重 |
| EchoMimicV3-preview | 🤗 ModelScope | preview的权重 |
| EchoMimicV3-Flash | 🤗 Huggingface | Flash的权重 |
-- EchoMimicV3-flash-pro权重 文件组织如下:
./flash-pro/
├── Wan2.1-Fun-V1.1-1.3B-InP
├── chinese-wav2vec2-base
└── transformer
└── diffusion_pytorch_model.safetensors
-- EchoMimicV3-preview权重 文件组织如下:
./preview/
├── Wan2.1-Fun-V1.1-1.3B-InP
├── wav2vec2-base-960h
└── transformer
└── diffusion_pytorch_model.safetensors
bash run_flash_pro.sh
python infer_preview.py
python app_mm.py
- 音频 CFG:音频 CFG
audio_guidance_scale最佳范围为 2~3。增加音频 CFG 值可以改善唇同步效果,减少音频 CFG 值可以提高视觉质量。- 文本 CFG:文本 CFG `gu - idance_scale` 最佳范围为 3~6。增加文本 CFG 值可以更好地遵循提示词,减少文本 CFG 值可以提高视觉质量。
- TeaCache:
teacache_threshold的最佳范围为 0~0.1。 - 采样步数:头部动画为 5 步,全身动作为 15~25 步。
- 长视频生成:如果需要生成超过 138 帧的视频,可以使用长视频 CFG。
- 尝试降低
partial_video_length节省显存。
| 状态 | 里程碑 |
|---|---|
| ✅ | EchoMimicV3 推理代码已发布至 GitHub |
| ✅ | EchoMimicV3-preview 模型已发布至 HuggingFace |
| ✅ | EchoMimicV3-preview 模型已发布至 ModelScope |
| 🚀 | 在线体验版 |
| 🚀 | 英文和中文预训练模型(Preview 版本)已发布至 ModelScope |
| 🚀 | 英文和中文预训练模型(720P)已发布至 HuggingFace |
| 🚀 | 英文和中文预训练模型(720P)已发布至 ModelScope |
| 🚀 | EchoMimicV3 训练代码已发布至 GitHub |
- EchoMimicV3: 13亿参数即可实现统一多模态、多任务人体动画生成。GitHub
- EchoMimicV2: 面向震撼、简化、半身人体动画生成。GitHub
- EchoMimicV1: 基于可编辑关键点条件的逼真语音驱动肖像动画生成。GitHub
如果我们的工作对您的研究有帮助,请引用我们的论文:
@misc{meng2025echomimicv3,
title={EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation},
author={Rang Meng, Yan Wang, Weipeng Wu, Ruobing Zheng, Yuming Li, Chenguang Ma},
year={2025},
eprint={2507.03905},
archivePrefix={arXiv}
}
本仓库中的模型采用 Apache 2.0 许可证。我们不对您生成的内容主张任何权利, 赋予您自由使用的权利,但您的使用需遵守该许可证的规定。 您需对模型的使用负全责,不得用于违反法律法规、伤害个人或群体、传播有害个人信息、散布虚假信息或针对弱势群体的行为。


