没有 GPU 也能跑 350 亿参数模型?Windows 本地部署 Qwen3.6-35B MoE 保姆级教程(附实测)

没有 GPU 也能跑 350 亿参数模型?Windows 本地部署 Qwen3.6-35B MoE 保姆级教程(附实测)

编写日期:2026-06-17 | 纯 CPU 推理,普通 PC 即可部署 | 本机实测 ~7.3 tok/s


一、硬件要求

硬件最低要求说明
CPUx64,支持 AVX22013 年后的 Intel/AMD 均可
内存≥ 16 GB模型加载约需 9 GB
磁盘≥ 12 GB 空闲模型文件约 11 GB
操作系统Windows 10/11 64-bit或 Linux

无需 GPU。IQ2_M 量化将 34.7B 模型压缩到纯 CPU 可运行的级别。


二、为什么选择本地部署?

把模型跑在自己电脑上,不仅仅是"省钱"。

对比维度云端 API(GPT / Claude / Gemini)本机部署
隐私安全对话数据上传云端,可能被日志记录、模型训练数据零外泄,断网也能用
内容审查严格安全对齐,大量话题直接拒答无审查限制,话题自由
调用费用按 token 计费,高频使用成本高无限调用,零费用
速率限制每分钟/每天有配额上限无限制,取决于你的硬件
网络依赖必须联网完全离线可用
模型选择只能用平台提供的版本任何 GGUF 格式模型皆可替换
长期拥有模型可能下线、涨价、调整策略模型永远在你硬盘上

💡 本机实测:i5-13400F + 32 GB 内存,生成速度 ~7.3 tok/s,仅占 ~9 GB RAM。一台普通笔记本就够。


三、部署前提

3.1 获取 llama-server

从 llama.cpp 官方 Releases 下载预编译包:

https://github.com/ggerganov/llama.cpp/releases

下载 Windows 版(如 llama-b<版本号>-win-x64.zip),解压到本地目录即可,无需编译。解压后在目录中找到 llama-server.exe

3.2 获取模型文件

从 Hugging Face 等平台下载 GGUF 格式的量化模型文件(搜索 Qwen3.6-35B-A3B IQ2_M GGUF),放入模型目录:

mkdir <你的模型目录>    # 例如 D:\models 或 F:\freeAI\models
# 将 .gguf 文件放入该目录

请替换为你实际的存放路径。

本机使用的具体文件:

项目
文件名Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
大小11 GB
架构34.7B MoE
量化IQ2_M(约 2.5-bit/参数)
上下文最大 262,144 tokens

四、部署步骤

Step 1:启动服务

可直接使用附带的启动脚本 code/start-llama-server.bat,修改其中的 MODEL_PATH 后双击运行。

或手动执行:

llama-server.exe ^
  --model <你的模型目录>\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf ^
  --port 8080 ^
  --ctx-size 4096 ^
  --gpu-layers 0 ^
  --host 0.0.0.0
参数作用
--model模型文件路径
--port服务端口,默认 8080
--ctx-size上下文窗口,4096 足够日常使用
--gpu-layers 0纯 CPU 推理(0 = 不使用 GPU)
--host 0.0.0.0允许本机及局域网访问

Step 2:验证服务

可直接使用 code/health_check.bat 一键检查。

或手动执行:

curl http://localhost:8080/health
# 返回: {"status":"ok"}

curl http://localhost:8080/v1/models
# 返回模型列表

Step 3:测试推理

curl http://localhost:8080/v1/chat/completions ^
  -H "Content-Type: application/json" ^
  -d "{\"model\":\"Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf\",\"messages\":[{\"role\":\"user\",\"content\":\"你好\"}],\"max_tokens\":50}"

五、API 使用

llama-server 提供兼容 OpenAI API 的接口:

端点功能
POST /v1/chat/completions聊天补全
POST /v1/completions文本补全
GET /v1/models模型列表
GET /health健康检查

Python 调用

完整代码见 code/demo_openai_sdk.py(OpenAI SDK)和 code/demo_requests.py(无需额外依赖)。


六、实测性能

指标
生成速度~7.3 tokens/秒
提示处理~4.2 tokens/秒
内存占用~9 GB
上下文窗口4,096 tokens

测试环境:i5-13400F / 32 GB DDR4 / Windows 11。实际速度受 CPU 型号和上下文长度影响。


七、常见问题

Q:启动报错 “out of memory”?

确保系统剩余可用内存 ≥ 10 GB。可减小 --ctx-size 降低内存占用(如 --ctx-size 2048)。

Q:如何关闭服务?

前台运行时按 Ctrl+C,或任务管理器中结束 llama-server.exe

Q:如何开机自启?

创建 .bat 脚本,加入 Windows 任务计划程序:

@echo off
llama-server.exe ^
  --model <你的模型目录>\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf ^
  --port 8080 --ctx-size 4096 --gpu-layers 0 --host 0.0.0.0

八、代码仓库

local-llm-stack — 本文所有脚本和示例代码均已开源:

git clone git@gitcode.com:gcw_A202cbBm/local-llm-stack.git

包含:启动脚本 · 健康检查 · Python 调用示例(OpenAI SDK / requests)。


如果您觉得有用,欢迎 点赞、转发、评论、关注

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

nbtang2026

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值