没有 GPU 也能跑 350 亿参数模型?Windows 本地部署 Qwen3.6-35B MoE 保姆级教程(附实测)
编写日期:2026-06-17 | 纯 CPU 推理,普通 PC 即可部署 | 本机实测 ~7.3 tok/s

一、硬件要求
| 硬件 | 最低要求 | 说明 |
|---|---|---|
| CPU | x64,支持 AVX2 | 2013 年后的 Intel/AMD 均可 |
| 内存 | ≥ 16 GB | 模型加载约需 9 GB |
| 磁盘 | ≥ 12 GB 空闲 | 模型文件约 11 GB |
| 操作系统 | Windows 10/11 64-bit | 或 Linux |
无需 GPU。IQ2_M 量化将 34.7B 模型压缩到纯 CPU 可运行的级别。
二、为什么选择本地部署?
把模型跑在自己电脑上,不仅仅是"省钱"。
| 对比维度 | 云端 API(GPT / Claude / Gemini) | 本机部署 |
|---|---|---|
| 隐私安全 | 对话数据上传云端,可能被日志记录、模型训练 | 数据零外泄,断网也能用 |
| 内容审查 | 严格安全对齐,大量话题直接拒答 | 无审查限制,话题自由 |
| 调用费用 | 按 token 计费,高频使用成本高 | 无限调用,零费用 |
| 速率限制 | 每分钟/每天有配额上限 | 无限制,取决于你的硬件 |
| 网络依赖 | 必须联网 | 完全离线可用 |
| 模型选择 | 只能用平台提供的版本 | 任何 GGUF 格式模型皆可替换 |
| 长期拥有 | 模型可能下线、涨价、调整策略 | 模型永远在你硬盘上 |
💡 本机实测:i5-13400F + 32 GB 内存,生成速度 ~7.3 tok/s,仅占 ~9 GB RAM。一台普通笔记本就够。
三、部署前提
3.1 获取 llama-server
从 llama.cpp 官方 Releases 下载预编译包:
https://github.com/ggerganov/llama.cpp/releases
下载 Windows 版(如 llama-b<版本号>-win-x64.zip),解压到本地目录即可,无需编译。解压后在目录中找到 llama-server.exe。
3.2 获取模型文件
从 Hugging Face 等平台下载 GGUF 格式的量化模型文件(搜索 Qwen3.6-35B-A3B IQ2_M GGUF),放入模型目录:
mkdir <你的模型目录> # 例如 D:\models 或 F:\freeAI\models
# 将 .gguf 文件放入该目录
请替换为你实际的存放路径。
本机使用的具体文件:
| 项目 | 值 |
|---|---|
| 文件名 | Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf |
| 大小 | 11 GB |
| 架构 | 34.7B MoE |
| 量化 | IQ2_M(约 2.5-bit/参数) |
| 上下文 | 最大 262,144 tokens |
四、部署步骤

Step 1:启动服务
可直接使用附带的启动脚本 code/start-llama-server.bat,修改其中的 MODEL_PATH 后双击运行。
或手动执行:
llama-server.exe ^
--model <你的模型目录>\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf ^
--port 8080 ^
--ctx-size 4096 ^
--gpu-layers 0 ^
--host 0.0.0.0
| 参数 | 作用 |
|---|---|
--model | 模型文件路径 |
--port | 服务端口,默认 8080 |
--ctx-size | 上下文窗口,4096 足够日常使用 |
--gpu-layers 0 | 纯 CPU 推理(0 = 不使用 GPU) |
--host 0.0.0.0 | 允许本机及局域网访问 |
Step 2:验证服务
可直接使用 code/health_check.bat 一键检查。
或手动执行:
curl http://localhost:8080/health
# 返回: {"status":"ok"}
curl http://localhost:8080/v1/models
# 返回模型列表
Step 3:测试推理
curl http://localhost:8080/v1/chat/completions ^
-H "Content-Type: application/json" ^
-d "{\"model\":\"Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}],\"max_tokens\":50}"
五、API 使用
llama-server 提供兼容 OpenAI API 的接口:
| 端点 | 功能 |
|---|---|
POST /v1/chat/completions | 聊天补全 |
POST /v1/completions | 文本补全 |
GET /v1/models | 模型列表 |
GET /health | 健康检查 |
Python 调用
完整代码见 code/demo_openai_sdk.py(OpenAI SDK)和 code/demo_requests.py(无需额外依赖)。
六、实测性能
| 指标 | 值 |
|---|---|
| 生成速度 | ~7.3 tokens/秒 |
| 提示处理 | ~4.2 tokens/秒 |
| 内存占用 | ~9 GB |
| 上下文窗口 | 4,096 tokens |
测试环境:i5-13400F / 32 GB DDR4 / Windows 11。实际速度受 CPU 型号和上下文长度影响。
七、常见问题
Q:启动报错 “out of memory”?
确保系统剩余可用内存 ≥ 10 GB。可减小 --ctx-size 降低内存占用(如 --ctx-size 2048)。
Q:如何关闭服务?
前台运行时按 Ctrl+C,或任务管理器中结束 llama-server.exe。
Q:如何开机自启?
创建 .bat 脚本,加入 Windows 任务计划程序:
@echo off
llama-server.exe ^
--model <你的模型目录>\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf ^
--port 8080 --ctx-size 4096 --gpu-layers 0 --host 0.0.0.0
八、代码仓库
local-llm-stack — 本文所有脚本和示例代码均已开源:
git clone git@gitcode.com:gcw_A202cbBm/local-llm-stack.git
包含:启动脚本 · 健康检查 · Python 调用示例(OpenAI SDK / requests)。
如果您觉得有用,欢迎 点赞、转发、评论、关注。
&spm=1001.2101.3001.5002&articleId=162067437&d=1&t=3&u=9f5eadf69cfe44bea7e76b95e1b87f9d)
363

被折叠的 条评论
为什么被折叠?



