M1芯片macOS安装Xinference部署大模型

原创已于 2025-07-07 10:16:44 修改 · 1.4k 阅读

·

4

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#macos #docker #Xinference

于 2025-06-19 19:13:18 首次发布

造相-Z-Image-Turbo 亚洲美女LoRA

造相-Z-Image-Turbo 亚洲美女LoRA

图片生成

Conda

Cuda

基于 **Z-Image-Turbo** 的图片生成 Web 服务，新增对 LoRA laonansheng/Asian-beauty-Z-Image-Turbo-Tongyi-MAI-v1.0 的按需加载支持与严格的后端内容策略

如果你看的是官方手册：安装 — Xinference

千万不要直接运行：

pip install "xinference[all]"

会遇到几个问题：
1）Python版本如果太新可能安装失败

2）全量安装会失败

3）未科学上网可能会timeout

我目前的做法如下：

1）安装mini-conda

2）创建虚拟环境，Python指定3.11版本，并激活运行

conda create -n xinference python=3.11
conda activate xinference

3）安装官方文档，运行不同的引擎，我推荐使用下面的：

Transformers 引擎

PyTorch(transformers) 引擎支持几乎有所的最新模型，这是 Pytorch 模型默认使用的引擎：

pip install "xinference[transformers]"

如果是M系列芯片的mac，还可以选择：

MLX 引擎

MLX-lm 用来在苹果 silicon 芯片上提供高效的 LLM 推理。

初始步骤：

pip install "xinference[mlx]"

其他引擎大家自行选择。

完成引擎安装后，就可以运行了：

xinference-local --host 0.0.0.0 --port 9997

后续访问 127.0.0.1:9997 即可进行配置；

如果是dify使用，先安装Xorbits Inference插件。

如果是docker部署，则大模型的服务器URL如下：

http://host.docker.internal:9997

您可能感兴趣的与本文相关的镜像

造相-Z-Image-Turbo 亚洲美女LoRA

造相-Z-Image-Turbo 亚洲美女LoRA

图片生成

Conda

Cuda

基于 **Z-Image-Turbo** 的图片生成 Web 服务，新增对 LoRA laonansheng/Asian-beauty-Z-Image-Turbo-Tongyi-MAI-v1.0 的按需加载支持与严格的后端内容策略

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。