手把手教你部署DeepSeek模型：从零搭建私有AI推理服务

最新推荐文章于 2026-06-18 14:16:48 发布

原创最新推荐文章于 2026-06-18 14:16:48 发布 · 146 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

前言

DeepSeek最近融了500亿，估值超过3300亿。这说明AI行业正在高速发展，而作为开发者，掌握AI部署技能已经成为刚需。

今天分享一下如何在自己的服务器上部署DeepSeek模型，打造一个私有的AI推理服务。整个过程不超过1小时，配置要求也不高。

环境准备

服务器配置建议

配置项	最低要求	推荐配置
CPU	4核	8核
内存	8GB	16GB
硬盘	50GB SSD	100GB SSD
系统	Ubuntu 22.04	Ubuntu 24.04
带宽	10Mbps	50Mbps

如果要跑7B参数的模型，4核8G勉强够用。如果要跑14B或更大的模型，建议8核16G起步。

服务器推荐

我自己用过几家，简单说下体验：

薄荷云：性价比高，4核8G一个月几十块钱，网络质量不错，适合个人开发者
阿里云：生态完善，文档多，适合新手
腾讯云：有AI推理优化方案，性能不错
雨云：价格亲民，适合学生党

部署步骤

Step 1: 安装Docker

# 更新系统
sudo apt update && sudo apt upgrade -y

# 安装Docker
curl -fsSL https://get.docker.com | sh

# 将当前用户加入docker组
sudo usermod -aG docker $USER

# 重新登录使生效
newgrp docker

# 验证安装
docker --version

Step 2: 安装Ollama

Ollama是一个轻量级的本地大模型运行框架，支持多种开源模型。

# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version

Step 3: 拉取DeepSeek模型

# 拉取7B版本（适合4核8G配置）
ollama pull deepseek-r1:7b

# 如果配置够高，可以拉取14B版本
ollama pull deepseek-r1:14b

# 查看已下载的模型
ollama list

Step 4: 测试运行

# 交互式运行
ollama run deepseek-r1:7b

# 测试完成后退出
/bye

Step 5: 配置API服务

Ollama默认提供API服务，端口是11434。

# 测试API
curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "你好，介绍一下自己",
  "stream": false
}'

Step 6: 配置外网访问

如果需要从外网访问API，需要配置反向代理。

安装Nginx：

sudo apt install nginx -y

创建配置文件：

server {
    listen 80;
    server_name your_domain.com;

    location / {
        proxy_pass http://localhost:11434;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_read_timeout 300s;
        proxy_connect_timeout 75s;
    }
}

Step 7: 配置开机自启

# 创建systemd服务文件
sudo tee /etc/systemd/system/ollama.service > /dev/null <<EOF
[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3

[Install]
WantedBy=default.target
EOF

# 启用并启动服务
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

性能优化

1. 使用GPU加速

如果有NVIDIA GPU，可以显著提升推理速度。

# 安装NVIDIA Container Toolkit
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list |   sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' |   sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

sudo apt update
sudo apt install -y nvidia-container-toolkit
sudo systemctl restart docker

2. 调整并发参数

# 设置最大并发数
export OLLAMA_NUM_PARALLEL=4

# 设置最大队列长度
export OLLAMA_MAX_QUEUE=8

3. 内存优化

# 设置上下文长度（减少内存占用）
export OLLAMA_CONTEXT_LENGTH=2048

常见问题

Q: 模型加载很慢怎么办？

A: 首次加载需要将模型从硬盘读入内存，后续加载会快很多。如果还是很慢，考虑升级硬盘到SSD。

Q: 内存不够怎么办？

A: 可以尝试量化版本，比如deepseek-r1:7b-q4_0，占用内存更小。

Q: 如何监控资源使用？

A: 使用htop或nvidia-smi（如果有GPU）监控CPU、内存、GPU使用情况。

总结

部署DeepSeek模型并不复杂，关键是要有一台合适的服务器。4核8G的配置就能跑起来7B模型，满足日常使用需求。

推荐使用薄荷云，性价比高，网络质量好，适合个人开发者。新人注册还有优惠，几杯奶茶的钱就能搞定。

有问题欢迎在评论区交流。

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅