vllm&sglang 单端口多模型部署方案

在单个端口下部署多个模型并通过统一API接口调用,可以通过请求路由层分布式框架实现。以下是基于 vLLMSGLang 的具体方案:


一、vLLM 方案

vLLM 本身不支持单端口多模型,但可通过以下方式实现:

  1. 多实例 + 反向代理

    • 为每个模型启动独立的 vLLM 服务实例,绑定不同端口(如 80008001)。
    • 使用 NginxFastAPI 作为路由层,根据请求参数(如 model_name)转发到对应端口。
    • 示例配置(Nginx):
      location /v1/completions {
          if ($arg_model = "model1") { proxy_pass http://localhost:8000; }
          if ($arg_model = "model2") { proxy_pass http://localhost:8001; }
      }
      
    • 优点:简单易实现,隔离性好。
  2. Ray 集群 + 动态路由

    • 使用 Ray 管理多模型实例,通过 --tensor-parallel-size--pipeline-parallel-size 分配 GPU 资源。
    • 自定义 FastAPI 服务,调用 Ray 集群的模型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值