2025 最新 DeepSeek-R1-Distill-Qwen-14B vLLM 部署全攻略：从环境搭建到性能测试(V100-32GB * 2)

原创

已于 2025-02-18 16:33:35 修改 · 1.3w 阅读

标签

#深度学习 #人工智能 #centos #ubuntu

于 2025-02-06 20:32:10 首次发布

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

环境准备

本文基础环境如下：

----------------
x86_64
ubuntu 22.04 or centos 7
gpu: V100(32GB) * 2
python 3.12
cuda 12.2
pytorch 2.5.1
----------------

本文默认已配置好以上 Pytorch (cuda) 环境，如未配置请先自行安装。

cuda
- 驱动安装详细教程：服务器显卡驱动与 CUDA 安装秘籍
- 显卡与驱动版本对应查询
  PCI devices (ucw.cz)
- 安装驱动
  Official Drivers | NVIDIA
- 安装 CUDA
  CUDA Toolkit Archive | NVIDIA Developer

依赖安装

新建虚拟环境
- -n DeepSeekR1：指定要创建的虚拟环境的名称为 DeepSeekR1。
- python=3.12：指定虚拟环境中 Python 的版本为 3.12。
- -y：在创建环境过程中自动确认所有提示，无需手动输入 yes。
- -c：用于指定 conda 源。这里指定了清华大学的主源和自由源。
- --override-channels 临时禁用默认源，仅使用你指定的源

conda create -n DeepSeekR1 python=3.12 -y \
--override-channels \
-c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main \
-c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free

激活环境

创建完成后，你可以使用以下命令来激活并验证虚拟环境：
```
# 激活虚拟环境
conda activate DeepSeekR1

# 查看 Python 版本
python --version
```
如果输出的 Python 版本为 3.12，则说明虚拟环境创建成功。

首先 pip 换源加速下载并安装依赖包

pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
pip install --upgrade pip

安装所需模块

直接复制，快速安装

也可以分开一个一个安

pip install modelscope==1.22.3
pip install openai==1.61.0
pip install tqdm==4.67.1
pip install transformers==4.48.2
pip install vllm==0.7.1

安装 pytorch

nvidia-smi 确认 cuda 版本需要大于等于pytorch安装的对应版本

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121

pytorch 下载太慢解决见下文

检查安装是否成功

python -c "import torch; print(torch.cuda.is_available())"

输出True 这说明 GPU版本的pytorch安装成功

模型下载

使用 modelscope 中的 snapshot_download 函数下载模型，第一个参数为模型名称，参数 local_dir为模型的下载路径。

新建 model_download.py 文件并在其中输入以下内容，粘贴代码后记得保存文件。

from modelscope import snapshot_download

model_dir = snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-14B', local_dir='deepseek-ai/DeepSeek-R1-Distill-Qwen-14B', revision='master')

然后在终端中输入 python model_download.py 执行下载，这里需要耐心等待一段时间直到模型下载完成。