简单易学的分离式部署Miloco方法,抛开官方AI Engine,支持AMD/macOS用户 #47
Replies: 5 comments 4 replies
-
|
感觉这个项目就是为了指定的硬件做的, 好多地方都是写死了, 可能也是为了以后发布硬件产品吧 |
Beta Was this translation helpful? Give feedback.
-
|
第一处代码的 |
Beta Was this translation helpful? Give feedback.
-
|
8000老占用了,我是直接改成net配静态ip,直接塞路由器网段去给他单独分一个,如果家里iot是独立网段也可以学我这么配(狗头) |
Beta Was this translation helpful? Give feedback.
-
|
部署官方的ai-engine,使用其提供的视觉模型,简单的问“画面中有什么”响应很快,但是一旦使用本地ollama部署的相同的官方视觉模型就出现问题了,一直卡在 |
Beta Was this translation helpful? Give feedback.
-
|
这两天试着在Jetson Orin上部署,改官方代码编译发现很多地方确实都写死的(默认代码CUDA都认不到)。 |
Beta Was this translation helpful? Give feedback.

Uh oh!
There was an error while loading. Please reload this page.
-
简单易学的分离式部署Miloco方法
一、安装环境
此处不再赘述,网上随便找个教程即可。特别地,对于Windows用户来说,你需要将 WSL2 的网络模式设置为 Mirrored。
二、使用Docker部署Miloco后端
以下均为bash命令。请Windows用户进入WSL2 / Linux、macOS用户进入终端操作:
mkdir miloco cd milico vi docker-compose.yml以下是compose的内容(不会使用vi的同学可以傻瓜式操作:先按i,再使用粘贴功能,然后按冒号,输入wq然后回车,记得关闭输入法):
再写个
.env:以下是.env的内容:
继续执行命令:
静待下载镜像以及运行即可。
三、部署视觉大模型
对于小白用户(含非专业的AMD用户),此处建议使用
LM Studio或Ollama来部署GGUF版的VL模型。如果你有一张高性能NVIDIA显卡(RTX3090、RTX4090、RTX5090等显存>=24G的),想要更加专业稳定的服务,那么建议使用
vLLM或SGLang进行生产级服务部署。此处为了照顾Windows及macOS小白用户,以简单易用的
LM Studio举例。下载LM Studio并安装
https://lmstudio.ai/
设置及下载模型
点击界面最右下角的设置图标,
检查环境安装情况
还是在设置页-Runtime
NVIDIA用户
AMD用户
苹果用户
下载模型
Model Search-搜索框中输入:xiaomi-open-source/Xiaomi-MiMo-VL-Miloco-7B-GGUF
点击右下角Download即可
运行模型并提供API服务
xiaomi-mimo-vl-miloco-7b是READY状态。Status: Stopped,点击开关,切换到Running。Server Settings,打开“在网络中提供服务”。Reachable at中,如:http://192.168.50.210:1234。复制它。四、与Miloco对接
假设你的Docker宿主机IP为
192.168.50.123,那么就访问https://192.168.50.123:8000/。首次设置会让你登录账号,登录后有一个callback地址,也填写192.168.50.123:8000。对接VL模型
点击模型管理-云端模型-添加模型:
Base URL输入
http://192.168.50.210:1234/v1API Key随便填
模型ID填
xiaomi-mimo-vl-miloco-7b,再点击一下以添加。完成后在上方“视觉理解大模型”中选择
云端:xiaomi-mimo-vl-miloco-7b对接规划模型
对于许多用户来说,走到这一步的时候,想必你的显存/统一内存已经所剩无几了吧!让我们白嫖一下硅基流动的大模型。
https://cloud.siliconflow.cn/,注册并登录。Base URL输入
https://api.siliconflow.cn/v1API Key填刚才生成的
模型ID选
Qwen/Qwen3-8B完成后在上方“规划大模型”中选择
云端:Qwen/Qwen3-8B回到AI中心,开始你的Miloco之旅吧!
五、一点Tips
Kimi K2、Minimax M2等。Qwen3-8B的训练时间较早且对齐略有问题,可能不能很好地稳定调用工具。这只是一个便宜的入门之选。vLLM提供服务,会获得更棒的体验。AI Engine,本质上就是对llama.cpp的封装。分离式部署大模型服务更灵活。Beta Was this translation helpful? Give feedback.
All reactions