前言
DeepSeek最近融了500亿,估值超过3300亿。这说明AI行业正在高速发展,而作为开发者,掌握AI部署技能已经成为刚需。
今天分享一下如何在自己的服务器上部署DeepSeek模型,打造一个私有的AI推理服务。整个过程不超过1小时,配置要求也不高。
环境准备
服务器配置建议
| 配置项 | 最低要求 | 推荐配置 |
|---|---|---|
| CPU | 4核 | 8核 |
| 内存 | 8GB | 16GB |
| 硬盘 | 50GB SSD | 100GB SSD |
| 系统 | Ubuntu 22.04 | Ubuntu 24.04 |
| 带宽 | 10Mbps | 50Mbps |
如果要跑7B参数的模型,4核8G勉强够用。如果要跑14B或更大的模型,建议8核16G起步。
服务器推荐
我自己用过几家,简单说下体验:
部署步骤
Step 1: 安装Docker
# 更新系统
sudo apt update && sudo apt upgrade -y
# 安装Docker
curl -fsSL https://get.docker.com | sh
# 将当前用户加入docker组
sudo usermod -aG docker $USER
# 重新登录使生效
newgrp docker
# 验证安装
docker --version
Step 2: 安装Ollama
Ollama是一个轻量级的本地大模型运行框架,支持多种开源模型。
# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 验证安装
ollama --version
Step 3: 拉取DeepSeek模型
# 拉取7B版本(适合4核8G配置)
ollama pull deepseek-r1:7b
# 如果配置够高,可以拉取14B版本
ollama pull deepseek-r1:14b
# 查看已下载的模型
ollama list
Step 4: 测试运行
# 交互式运行
ollama run deepseek-r1:7b
# 测试完成后退出
/bye
Step 5: 配置API服务
Ollama默认提供API服务,端口是11434。
# 测试API
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "你好,介绍一下自己",
"stream": false
}'
Step 6: 配置外网访问
如果需要从外网访问API,需要配置反向代理。
安装Nginx:
sudo apt install nginx -y
创建配置文件:
server {
listen 80;
server_name your_domain.com;
location / {
proxy_pass http://localhost:11434;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_read_timeout 300s;
proxy_connect_timeout 75s;
}
}
Step 7: 配置开机自启
# 创建systemd服务文件
sudo tee /etc/systemd/system/ollama.service > /dev/null <<EOF
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
[Install]
WantedBy=default.target
EOF
# 启用并启动服务
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
性能优化
1. 使用GPU加速
如果有NVIDIA GPU,可以显著提升推理速度。
# 安装NVIDIA Container Toolkit
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt update
sudo apt install -y nvidia-container-toolkit
sudo systemctl restart docker
2. 调整并发参数
# 设置最大并发数
export OLLAMA_NUM_PARALLEL=4
# 设置最大队列长度
export OLLAMA_MAX_QUEUE=8
3. 内存优化
# 设置上下文长度(减少内存占用)
export OLLAMA_CONTEXT_LENGTH=2048
常见问题
Q: 模型加载很慢怎么办?
A: 首次加载需要将模型从硬盘读入内存,后续加载会快很多。如果还是很慢,考虑升级硬盘到SSD。
Q: 内存不够怎么办?
A: 可以尝试量化版本,比如deepseek-r1:7b-q4_0,占用内存更小。
Q: 如何监控资源使用?
A: 使用htop或nvidia-smi(如果有GPU)监控CPU、内存、GPU使用情况。
总结
部署DeepSeek模型并不复杂,关键是要有一台合适的服务器。4核8G的配置就能跑起来7B模型,满足日常使用需求。
推荐使用薄荷云,性价比高,网络质量好,适合个人开发者。新人注册还有优惠,几杯奶茶的钱就能搞定。
有问题欢迎在评论区交流。

1万+

被折叠的 条评论
为什么被折叠?



