Skip to content

Latest commit

 

History

History
197 lines (175 loc) · 10.2 KB

File metadata and controls

197 lines (175 loc) · 10.2 KB

EchoMimicV3: 13亿参数即可实现统一多模态、多任务人体动画生成

支付宝终端技术部,蚂蚁集团

1项目负责人  2通讯作者

📣 更新日志

[2026.01.22] 🔥 我们更新了 EchoMimicV3-Flash 模型和代码

  • 🚀 8 步即可生成高质量结果,远超 V3-preview 表现
  • 🧩 无需人脸位置掩码,流程更简洁,鲁棒性更强
  • 💾 需 12G 显存
  • ✅ 支持最大 768×768 分辨率生成
  • [2025.08.12] 🔥 仅需12G显存生成视频, 量化版本GradioUI发布。 查看 教程。感谢@gluttony-10贡献。
  • [2025.08.12] 🔥 EchoMimicV3支持16G显存,使用ComfyUI. 感谢 @smthemex的贡献。
  • [2025.08.10] 🔥 GradioUI 已发布,感谢 @gluttony-10 的贡献。
  • [2025.08.09] 🔥 我们在 ModelScope 上发布了 模型
  • [2025.08.08] 🔥 我们在 Huggingface 上发布了 代码模型
  • [2025.07.08] 🔥 我们的 论文 在 arxiv 上公开。

🌅 示例展示

teaser_github.mp4
hoi_github.mp4

中文驱动效果

01.mp4
02.mp4
03.mp4
04.mp4

更多演示视频,请访问项目主页

快速开始

环境配置

  • 测试系统环境:Centos 7.2/Ubuntu 22.04, Cuda >= 12.1
  • 测试 GPU:A100(80G) / RTX4090D (24G) / V100(16G)
  • 测试 Python 版本:3.10 / 3.11

🛠️ 安装

1. 创建 conda 环境

conda create -n echomimic_v3 python=3.10
conda activate echomimic_v3

2. 安装其他依赖

pip install -r requirements.txt

🧱 模型准备

模型名称 下载链接 备注
Wan2.1-Fun-1.3B-InP 🤗 Huggingface 基础模型
wav2vec2-base 🤗 Huggingface 音频编码器
chinese-wav2vec2-base 🤗 Huggingface Flash的音频编码器
EchoMimicV3-preview 🤗 Huggingface preview的权重
EchoMimicV3-preview 🤗 ModelScope preview的权重
EchoMimicV3-Flash 🤗 Huggingface Flash的权重

-- EchoMimicV3-flash-pro权重 文件组织如下:

./flash-pro/
├── Wan2.1-Fun-V1.1-1.3B-InP
├── chinese-wav2vec2-base
└── transformer
    └── diffusion_pytorch_model.safetensors

-- EchoMimicV3-preview权重 文件组织如下:

./preview/
├── Wan2.1-Fun-V1.1-1.3B-InP
├── wav2vec2-base-960h
└── transformer
    └── diffusion_pytorch_model.safetensors

🔑 快速推理 EchoMimicV3-flash-pro

bash run_flash_pro.sh

🔑 快速推理 EchoMimicV3-preview

python infer_preview.py

🔑 快速推理preview量化版本

python app_mm.py

提示

  • 音频 CFG:音频 CFG audio_guidance_scale 最佳范围为 2~3。增加音频 CFG 值可以改善唇同步效果,减少音频 CFG 值可以提高视觉质量。- 文本 CFG:文本 CFG `gu
  • idance_scale` 最佳范围为 3~6。增加文本 CFG 值可以更好地遵循提示词,减少文本 CFG 值可以提高视觉质量。
  • TeaCache:teacache_threshold 的最佳范围为 0~0.1。
  • 采样步数:头部动画为 5 步,全身动作为 15~25 步。
  • ​长视频生成:如果需要生成超过 138 帧的视频,可以使用长视频 CFG。
  • 尝试降低partial_video_length节省显存。

📝 待办事项

状态 里程碑
EchoMimicV3 推理代码已发布至 GitHub
EchoMimicV3-preview 模型已发布至 HuggingFace
EchoMimicV3-preview 模型已发布至 ModelScope
🚀 在线体验版
🚀 英文和中文预训练模型(Preview 版本)已发布至 ModelScope
🚀 英文和中文预训练模型(720P)已发布至 HuggingFace
🚀 英文和中文预训练模型(720P)已发布至 ModelScope
🚀 EchoMimicV3 训练代码已发布至 GitHub

🚀 EchoMimic 系列

  • EchoMimicV3: 13亿参数即可实现统一多模态、多任务人体动画生成。GitHub
  • EchoMimicV2: 面向震撼、简化、半身人体动画生成。GitHub
  • EchoMimicV1: 基于可编辑关键点条件的逼真语音驱动肖像动画生成。GitHub

📒 引用

如果我们的工作对您的研究有帮助,请引用我们的论文:

@misc{meng2025echomimicv3,
  title={EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation},
  author={Rang Meng, Yan Wang, Weipeng Wu, Ruobing Zheng, Yuming Li, Chenguang Ma},
  year={2025},
  eprint={2507.03905},
  archivePrefix={arXiv}
}

📜 许可证

本仓库中的模型采用 Apache 2.0 许可证。我们不对您生成的内容主张任何权利, 赋予您自由使用的权利,但您的使用需遵守该许可证的规定。 您需对模型的使用负全责,不得用于违反法律法规、伤害个人或群体、传播有害个人信息、散布虚假信息或针对弱势群体的行为。

🌟 Star 历史

Star History Chart