本章节接着上一章节的内容,主要介绍vLLM在服务器上的部署、搭建、验证,构建一个可使用的大模型服务器。
同时还将介绍通信转发的内容,让虚拟机成功访问服务器,让本地机器达到一个中间通信组件的作用。
下面直接开始吧。
(三)搭建服务器模型环境(vLLM)
前两步我们在完成了虚拟机的构建,在虚拟机完成了openclaw的搭建,完成了本地主机浏览器对虚拟机openclaw的网页访问。
在这一步我们将在服务器(可通信、部署大模型的机器上,如果你是本地机器作为服务器则更简单)构建vLLM,并且启动调用本地大语言模型,为后续openclaw调用模型而做准备。
使用模型框架(Ollama或vLLM)运行大语言模型,这里我采用的是 vLLM + Qwen3.5-27B-FP8的组合。当然模型的使用具体还是根据自身资源来动态匹配,例如只有24G显存,那可以选择Qwen3.5-4B或Qwen3.5-9B(或者其他更大参数但量化过后的模型)。
说明:(这里就不过多介绍CUDA驱动版本安装等因素了,有疑问的可以沟通)如果你已经有了环境可以自行选择使用,这里将通过conda创建虚拟环境安装vLLM。
① 安装vLLM(在服务器中操作)
1. 首先我们下载Miniconda安装包,这个可以通过下面命令下载,也可以通过官网手动下载安装包。
# 这是Linux版本
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
2. 运行安装脚本:
bash Miniconda3-latest-Linux-x86_64.sh
3. 安装选择
按 Enter 继续阅读许可协议,然后输入 yes 接受。
确认安装路径(通常默认在 ~/miniconda3)或自定义。
当询问是否将 Conda 初始化添加到 .bashrc 时,建议输入 yes。
4. 创建虚拟环境
conda create -n vllm_env python=3.12 -y
5. 进入虚拟环境
conda activate vllm_env
6. 安装vLLM(uv和pip选择一种安装方式)
# 方法一:
# (推荐,使用uv安装预发版本,openclaw更新超快,vllm旧版本可能有功能不匹配)
pip install uv
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly --index-stra

vLLM与网络穿透》&spm=1001.2101.3001.5002&articleId=159731711&d=1&t=3&u=61700bab6a2349dfbd22e19e59bedc4a)
325

被折叠的 条评论
为什么被折叠?



