简单易学的分离式部署Miloco方法，抛开官方AI Engine，支持AMD/macOS用户 #47

flymyd · 2025-11-16T07:42:07Z

flymyd
Nov 16, 2025

简单易学的分离式部署Miloco方法

一、安装环境

Windows用户：安装WSL2以及Docker
macOS/Linux用户：安装Docker
此处不再赘述，网上随便找个教程即可。特别地，对于Windows用户来说，你需要将 WSL2 的网络模式设置为 Mirrored。

二、使用Docker部署Miloco后端

以下均为bash命令。请Windows用户进入WSL2 / Linux、macOS用户进入终端操作：

mkdir miloco
cd milico
vi docker-compose.yml

以下是compose的内容（不会使用vi的同学可以傻瓜式操作：先按i，再使用粘贴功能，然后按冒号，输入wq然后回车，记得关闭输入法）：

services:
  backend:
    container_name: miloco-backend
    image: ghcr.nju.edu.cn/xiaomi/miloco-backend:latest
    network_mode: host
    expose:
      - ${BACKEND_PORT:-8000}
    environment:
      - BACKEND_HOST=${BACKEND_HOST:-0.0.0.0}
      - BACKEND_PORT=${BACKEND_PORT:-8000}
      - AI_ENGINE_HOST=${AI_ENGINE_HOST:-0.0.0.0}
      - AI_ENGINE_PORT=${AI_ENGINE_PORT:-8001}
      - BACKEND_LOG_LEVEL=${BACKEND_LOG_LEVEL:-info}
      - TZ=${TZ:-Asia/Shanghai}
    volumes:
      - ./data:/app/miloco_server/.temp
      - ./log/backend:/app/miloco_server/.temp/log
    restart: unless-stopped
    healthcheck:
      disable: true

再写个.env：

vi .env

以下是.env的内容：

TZ=Asia/Shanghai
BACKEND_HOST=0.0.0.0
BACKEND_PORT=8000
BACKEND_LOG_LEVER=info
AI_ENGINE_HOST=0.0.0.0
AI_ENGINE_PORT=8001
AI_ENGINE_LOG_LEVER=info

继续执行命令：

mkdir -p data
mkdir -p log/backend
docker compose up -d

静待下载镜像以及运行即可。

三、部署视觉大模型

对于小白用户（含非专业的AMD用户），此处建议使用LM Studio或Ollama来部署GGUF版的VL模型。
如果你有一张高性能NVIDIA显卡（RTX3090、RTX4090、RTX5090等显存>=24G的），想要更加专业稳定的服务，那么建议使用vLLM或SGLang进行生产级服务部署。
此处为了照顾Windows及macOS小白用户，以简单易用的LM Studio举例。

下载LM Studio并安装

https://lmstudio.ai/

设置及下载模型

点击界面最右下角的设置图标，

App Settings-General-Language-简体中文
App Settings-Developer-启用本地 LLM 服务

检查环境安装情况

还是在设置页-Runtime

NVIDIA用户

Vulkan llama.cpp
CUDA llama.cpp
CPU llama.cpp
CUDA 12 llama.cpp
Harmony

AMD用户

Vulkan llama.cpp
ROCm llama.cpp
CPU llama.cpp
Harmony

苹果用户

Vulkan llama.cpp
Metal llama.cpp
MLX llama.cpp
CPU llama.cpp
Harmony

下载模型

Model Search-搜索框中输入：xiaomi-open-source/Xiaomi-MiMo-VL-Miloco-7B-GGUF
点击右下角Download即可

运行模型并提供API服务

下载完成后点击页面左侧的“开发者”（一个绿色终端图标，位于对话图标下方）
点击页面顶部加载模型
你应该能够看到xiaomi-mimo-vl-miloco-7b是READY状态。
页面顶部有一个Status: Stopped，点击开关，切换到Running。
点击Server Settings，打开“在网络中提供服务”。
你将得到一个局域网地址，显示在右侧的Reachable at中，如：http://192.168.50.210:1234。复制它。

四、与Miloco对接

假设你的Docker宿主机IP为192.168.50.123，那么就访问https://192.168.50.123:8000/。首次设置会让你登录账号，登录后有一个callback地址，也填写192.168.50.123:8000。

对接VL模型

点击模型管理-云端模型-添加模型：
Base URL输入http://192.168.50.210:1234/v1
API Key随便填
模型ID填xiaomi-mimo-vl-miloco-7b，再点击一下以添加。
完成后在上方“视觉理解大模型”中选择云端：xiaomi-mimo-vl-miloco-7b

对接规划模型

对于许多用户来说，走到这一步的时候，想必你的显存/统一内存已经所剩无几了吧！让我们白嫖一下硅基流动的大模型。

访问https://cloud.siliconflow.cn/，注册并登录。
点击左侧的API密钥，生成一个，复制出来（sk开头的）
还是添加云端模型:
Base URL输入https://api.siliconflow.cn/v1
API Key填刚才生成的
模型ID选Qwen/Qwen3-8B
完成后在上方“规划大模型”中选择云端：Qwen/Qwen3-8B

回到AI中心，开始你的Miloco之旅吧！

五、一点Tips

对于规划模型，你可以尝试使用更强的大模型，它们调用工具更稳定，比如Kimi K2、Minimax M2等。Qwen3-8B的训练时间较早且对齐略有问题，可能不能很好地稳定调用工具。这只是一个便宜的入门之选。
对于VL模型，有条件的同学可以尝试部署全精度版本，使用vLLM提供服务，会获得更棒的体验。
官方文档中推荐的安装方式只是多集成了一个AI Engine，本质上就是对llama.cpp的封装。分离式部署大模型服务更灵活。
吐槽：我曾经想着提个pr来适配更多平台，但发现代码里硬编码了许多CUDA/nvidia相关的东西，蒜鸟蒜鸟。
有疑问可以联系我：flymyd@foxmail.com，不保证时效性。

XGH2333 · 2025-11-16T09:39:09Z

XGH2333
Nov 16, 2025

感觉这个项目就是为了指定的硬件做的, 好多地方都是写死了, 可能也是为了以后发布硬件产品吧

4 replies

he0119 Nov 18, 2025

感觉这个项目就是为了指定的硬件做的, 好多地方都是写死了, 可能也是为了以后发布硬件产品吧

其实写死很多时候只是为了方便开发吧。

ygsa Nov 18, 2025

"这里先写死"

flymyd Nov 18, 2025
Author

"这里先写死"

我已经找到了一个绝妙的设计模式，可惜工期太紧，写不下

libi Nov 28, 2025

说不定就是给即将发布的xiaomi NAS搞的，调用云端模型。

xiong9151 · 2025-11-29T05:01:50Z

xiong9151
Nov 29, 2025

第一处代码的
mkdir miloco
cd milico<--这里miloco打错了
vi docker-compose.yml

0 replies

exa160 · 2025-11-29T14:20:47Z

exa160
Nov 29, 2025

8000老占用了，我是直接改成net配静态ip，直接塞路由器网段去给他单独分一个，如果家里iot是独立网段也可以学我这么配（狗头）

0 replies

dest16 · 2025-12-04T01:53:30Z

dest16
Dec 4, 2025

部署官方的ai-engine，使用其提供的视觉模型，简单的问“画面中有什么”响应很快，但是一旦使用本地ollama部署的相同的官方视觉模型就出现问题了，一直卡在

规划模型都是使用相同的云端接口，有没有人遇到过这个问题

0 replies

linzyjx · 2025-12-20T17:58:22Z

linzyjx
Dec 20, 2025

这两天试着在Jetson Orin上部署，改官方代码编译发现很多地方确实都写死的（默认代码CUDA都认不到）。
然后看一下能不能用ollama部署，ollama上还没发布miloco模型，手动导入多模态部分输出有点问题，时间有限也先放弃。
现在在用ollama有的MiMo-VL-7B-RL拿来先试试，至少能够做到图像理解。

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

简单易学的分离式部署Miloco方法，抛开官方AI Engine，支持AMD/macOS用户 #47

Uh oh!

{{title}}

Uh oh!

Replies: 5 comments 4 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

简单易学的分离式部署Miloco方法，抛开官方AI Engine，支持AMD/macOS用户 #47

Uh oh!

简单易学的分离式部署Miloco方法

一、安装环境

二、使用Docker部署Miloco后端

三、部署视觉大模型

下载LM Studio并安装

设置及下载模型

检查环境安装情况

NVIDIA用户

AMD用户

苹果用户

下载模型

运行模型并提供API服务

四、与Miloco对接

对接VL模型

对接规划模型

五、一点Tips

Replies: 5 comments · 4 replies

Uh oh!

Uh oh!

Uh oh!

Uh oh!

flymyd Nov 18, 2025 Author

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Replies: 5 comments 4 replies

flymyd Nov 18, 2025
Author