手把手教你部署DeepSeek模型:从零搭建私有AI推理服务

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

前言

DeepSeek最近融了500亿,估值超过3300亿。这说明AI行业正在高速发展,而作为开发者,掌握AI部署技能已经成为刚需。

今天分享一下如何在自己的服务器上部署DeepSeek模型,打造一个私有的AI推理服务。整个过程不超过1小时,配置要求也不高。

环境准备

服务器配置建议

配置项最低要求推荐配置
CPU4核8核
内存8GB16GB
硬盘50GB SSD100GB SSD
系统Ubuntu 22.04Ubuntu 24.04
带宽10Mbps50Mbps

如果要跑7B参数的模型,4核8G勉强够用。如果要跑14B或更大的模型,建议8核16G起步。

服务器推荐

我自己用过几家,简单说下体验:

  • 薄荷云:性价比高,4核8G一个月几十块钱,网络质量不错,适合个人开发者
  • 阿里云:生态完善,文档多,适合新手
  • 腾讯云:有AI推理优化方案,性能不错
  • 雨云:价格亲民,适合学生党

部署步骤

Step 1: 安装Docker

# 更新系统
sudo apt update && sudo apt upgrade -y

# 安装Docker
curl -fsSL https://get.docker.com | sh

# 将当前用户加入docker组
sudo usermod -aG docker $USER

# 重新登录使生效
newgrp docker

# 验证安装
docker --version

Step 2: 安装Ollama

Ollama是一个轻量级的本地大模型运行框架,支持多种开源模型。

# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version

Step 3: 拉取DeepSeek模型

# 拉取7B版本(适合4核8G配置)
ollama pull deepseek-r1:7b

# 如果配置够高,可以拉取14B版本
ollama pull deepseek-r1:14b

# 查看已下载的模型
ollama list

Step 4: 测试运行

# 交互式运行
ollama run deepseek-r1:7b

# 测试完成后退出
/bye

Step 5: 配置API服务

Ollama默认提供API服务,端口是11434。

# 测试API
curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "你好,介绍一下自己",
  "stream": false
}'

Step 6: 配置外网访问

如果需要从外网访问API,需要配置反向代理。

安装Nginx:

sudo apt install nginx -y

创建配置文件:

server {
    listen 80;
    server_name your_domain.com;

    location / {
        proxy_pass http://localhost:11434;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_read_timeout 300s;
        proxy_connect_timeout 75s;
    }
}

Step 7: 配置开机自启

# 创建systemd服务文件
sudo tee /etc/systemd/system/ollama.service > /dev/null <<EOF
[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3

[Install]
WantedBy=default.target
EOF

# 启用并启动服务
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

性能优化

1. 使用GPU加速

如果有NVIDIA GPU,可以显著提升推理速度。

# 安装NVIDIA Container Toolkit
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list |   sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' |   sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

sudo apt update
sudo apt install -y nvidia-container-toolkit
sudo systemctl restart docker

2. 调整并发参数

# 设置最大并发数
export OLLAMA_NUM_PARALLEL=4

# 设置最大队列长度
export OLLAMA_MAX_QUEUE=8

3. 内存优化

# 设置上下文长度(减少内存占用)
export OLLAMA_CONTEXT_LENGTH=2048

常见问题

Q: 模型加载很慢怎么办?

A: 首次加载需要将模型从硬盘读入内存,后续加载会快很多。如果还是很慢,考虑升级硬盘到SSD。

Q: 内存不够怎么办?

A: 可以尝试量化版本,比如deepseek-r1:7b-q4_0,占用内存更小。

Q: 如何监控资源使用?

A: 使用htopnvidia-smi(如果有GPU)监控CPU、内存、GPU使用情况。

总结

部署DeepSeek模型并不复杂,关键是要有一台合适的服务器。4核8G的配置就能跑起来7B模型,满足日常使用需求。

推荐使用薄荷云,性价比高,网络质量好,适合个人开发者。新人注册还有优惠,几杯奶茶的钱就能搞定。

有问题欢迎在评论区交流。

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

泷羽Sec

公众号【小羽网安】

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值