没有 GPU 也能跑 350 亿参数模型？Windows 本地部署 Qwen3.6-35B MoE 保姆级教程（附实测）

最新推荐文章于 2026-06-17 21:32:59 发布

原创最新推荐文章于 2026-06-17 21:32:59 发布 · 682 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#windows #人工智能 #ai #语言模型

话题

#AI编程·六月创作之星博客挑战赛

没有 GPU 也能跑 350 亿参数模型？Windows 本地部署 Qwen3.6-35B MoE 保姆级教程（附实测）

编写日期：2026-06-17 | 纯 CPU 推理，普通 PC 即可部署 | 本机实测 ~7.3 tok/s

一、硬件要求

硬件	最低要求	说明
CPU	x64，支持 AVX2	2013 年后的 Intel/AMD 均可
内存	≥ 16 GB	模型加载约需 9 GB
磁盘	≥ 12 GB 空闲	模型文件约 11 GB
操作系统	Windows 10/11 64-bit	或 Linux

无需 GPU。IQ2_M 量化将 34.7B 模型压缩到纯 CPU 可运行的级别。

二、为什么选择本地部署？

把模型跑在自己电脑上，不仅仅是"省钱"。

对比维度	云端 API（GPT / Claude / Gemini）	本机部署
隐私安全	对话数据上传云端，可能被日志记录、模型训练	数据零外泄，断网也能用
内容审查	严格安全对齐，大量话题直接拒答	无审查限制，话题自由
调用费用	按 token 计费，高频使用成本高	无限调用，零费用
速率限制	每分钟/每天有配额上限	无限制，取决于你的硬件
网络依赖	必须联网	完全离线可用
模型选择	只能用平台提供的版本	任何 GGUF 格式模型皆可替换
长期拥有	模型可能下线、涨价、调整策略	模型永远在你硬盘上

💡 本机实测：i5-13400F + 32 GB 内存，生成速度 ~7.3 tok/s，仅占 ~9 GB RAM。一台普通笔记本就够。

三、部署前提

3.1 获取 llama-server

从 llama.cpp 官方 Releases 下载预编译包：

https://github.com/ggerganov/llama.cpp/releases

下载 Windows 版（如 llama-b<版本号>-win-x64.zip），解压到本地目录即可，无需编译。解压后在目录中找到 llama-server.exe。

3.2 获取模型文件

从 Hugging Face 等平台下载 GGUF 格式的量化模型文件（搜索 Qwen3.6-35B-A3B IQ2_M GGUF），放入模型目录：

mkdir <你的模型目录>    # 例如 D:\models 或 F:\freeAI\models
# 将 .gguf 文件放入该目录

请替换为你实际的存放路径。

本机使用的具体文件：

项目	值
文件名	`Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf`
大小	11 GB
架构	34.7B MoE
量化	IQ2_M（约 2.5-bit/参数）
上下文	最大 262,144 tokens

四、部署步骤

Step 1：启动服务

可直接使用附带的启动脚本 code/start-llama-server.bat，修改其中的 MODEL_PATH 后双击运行。

或手动执行：

llama-server.exe ^
  --model <你的模型目录>\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf ^
  --port 8080 ^
  --ctx-size 4096 ^
  --gpu-layers 0 ^
  --host 0.0.0.0

参数	作用
`--model`	模型文件路径
`--port`	服务端口，默认 8080
`--ctx-size`	上下文窗口，4096 足够日常使用
`--gpu-layers 0`	纯 CPU 推理（0 = 不使用 GPU）
`--host 0.0.0.0`	允许本机及局域网访问

Step 2：验证服务

可直接使用 code/health_check.bat 一键检查。

或手动执行：

curl http://localhost:8080/health
# 返回: {"status":"ok"}

curl http://localhost:8080/v1/models
# 返回模型列表

Step 3：测试推理

curl http://localhost:8080/v1/chat/completions ^
  -H "Content-Type: application/json" ^
  -d "{\"model\":\"Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}],\"max_tokens\":50}"

五、API 使用

llama-server 提供兼容 OpenAI API 的接口：

端点	功能
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /v1/models`	模型列表
`GET /health`	健康检查

Python 调用

完整代码见 code/demo_openai_sdk.py（OpenAI SDK）和 code/demo_requests.py（无需额外依赖）。

六、实测性能

指标	值
生成速度	~7.3 tokens/秒
提示处理	~4.2 tokens/秒
内存占用	~9 GB
上下文窗口	4,096 tokens

测试环境：i5-13400F / 32 GB DDR4 / Windows 11。实际速度受 CPU 型号和上下文长度影响。

七、常见问题

Q：启动报错 “out of memory”？

确保系统剩余可用内存 ≥ 10 GB。可减小 --ctx-size 降低内存占用（如 --ctx-size 2048）。

Q：如何关闭服务？

前台运行时按 Ctrl+C，或任务管理器中结束 llama-server.exe。

Q：如何开机自启？

创建 .bat 脚本，加入 Windows 任务计划程序：

@echo off
llama-server.exe ^
  --model <你的模型目录>\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf ^
  --port 8080 --ctx-size 4096 --gpu-layers 0 --host 0.0.0.0

八、代码仓库

local-llm-stack — 本文所有脚本和示例代码均已开源：

git clone git@gitcode.com:gcw_A202cbBm/local-llm-stack.git

包含：启动脚本 · 健康检查 · Python 调用示例（OpenAI SDK / requests）。

如果您觉得有用，欢迎 点赞、转发、评论、关注。