在单个端口下部署多个模型并通过统一API接口调用,可以通过请求路由层或分布式框架实现。以下是基于 vLLM 和 SGLang 的具体方案:
一、vLLM 方案
vLLM 本身不支持单端口多模型,但可通过以下方式实现:
-
多实例 + 反向代理
- 为每个模型启动独立的 vLLM 服务实例,绑定不同端口(如
8000、8001)。 - 使用 Nginx 或 FastAPI 作为路由层,根据请求参数(如
model_name)转发到对应端口。 - 示例配置(Nginx):
location /v1/completions { if ($arg_model = "model1") { proxy_pass http://localhost:8000; } if ($arg_model = "model2") { proxy_pass http://localhost:8001; } } - 优点:简单易实现,隔离性好。
- 为每个模型启动独立的 vLLM 服务实例,绑定不同端口(如
-
Ray 集群 + 动态路由
- 使用 Ray 管理多模型实例,通过
--tensor-parallel-size和--pipeline-parallel-size分配 GPU 资源。 - 自定义 FastAPI 服务,调用 Ray 集群的模型
- 使用 Ray 管理多模型实例,通过


12万+

被折叠的 条评论
为什么被折叠?



