vllm&sglang 单端口多模型部署方案

最新推荐文章于 2026-04-18 09:13:19 发布

原创

最新推荐文章于 2026-04-18 09:13:19 发布 · 1.5k 阅读

·

14

·

标签

#chrome #前端

在单个端口下部署多个模型并通过统一API接口调用，可以通过请求路由层或分布式框架实现。以下是基于 vLLM 和 SGLang 的具体方案：

一、vLLM 方案

vLLM 本身不支持单端口多模型，但可通过以下方式实现：

多实例 + 反向代理
- 为每个模型启动独立的 vLLM 服务实例，绑定不同端口（如 8000、8001）。
- 使用 Nginx 或 FastAPI 作为路由层，根据请求参数（如 model_name）转发到对应端口。
- 示例配置（Nginx）：
```
location /v1/completions {
    if ($arg_model = "model1") { proxy_pass http://localhost:8000; }
    if ($arg_model = "model2") { proxy_pass http://localhost:8001; }
}
```
- 优点：简单易实现，隔离性好。
Ray 集群 + 动态路由
- 使用 Ray 管理多模型实例，通过 --tensor-parallel-size 和 --pipeline-parallel-size 分配 GPU 资源。
- 自定义 FastAPI 服务，调用 Ray 集群的模型

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。