vLLM+K8s实战：如何用GPU硬切分同时部署embedding和reranker模型？

最新推荐文章于 2026-06-23 15:45:12 发布

原创

最新推荐文章于 2026-06-23 15:45:12 发布 · 743 阅读

标签

#模型部署 #vLLM #Kubernetes #昇腾NPU

企业级AI模型部署革命：基于昇腾NPU硬切分与Kubernetes的单卡多模型共存实战

在构建企业级AI应用平台时，我们常常面临一个核心矛盾：一方面，大型语言模型（LLM）需要消耗海量的计算资源，动辄占用整张甚至多张高性能计算卡；另一方面，embedding、reranker、语音识别等“小”模型虽然单个资源需求不大，但种类繁多，如果每个模型都独占一张卡，硬件成本将急剧攀升，资源利用率却低得可怜。传统的“一模型一卡”部署模式，在追求极致性价比和灵活性的今天，已经显得捉襟见肘。

想象一下这样的场景：你手头有一台搭载了昇腾Atlas 800I A2推理服务器的设备，需要同时部署一个用于文档检索的embedding模型（如bge-m3）、一个用于结果精排的reranker模型（如bge-reranker-v2-m3），或许还有一个语音识别模型（如SenseVoiceSmall）。按照老办法，你可能需要三张卡。但现实是，这些“小”模型在推理时，显存和算力占用远未达到单卡的饱和状态。大量的计算资源就在这种“占着茅坑不拉屎”的状态下被白白浪费了。

有没有一种技术，能像切蛋糕一样，将一张物理NPU卡的算力和显存精准地划分成多个独立的虚拟部分，分别分配给不同的模型使用，并且保证它们之间互不干扰？答案是肯定的。昇腾NPU提供的虚拟化硬切分（vNPU） 能力，结合Kubernetes强大的资源调度与隔离特性，正是解决这一难题的“黄金组合”。本文将深入探讨如何利用这套技术栈，在单张Atlas 800I A2上，实现embedding与reranker模型的高效、稳定、生产级共存部署。这不仅是一次技术实践，更是对AI基础设施资源利用范式的一次革新。

1. 核心理念：从资源独占走向智能共享

在深入实操之前，我们必须理解支撑此次部署变革的两大技术支柱：昇腾vNPU硬切分和Kubernetes容器化编排。它们的结合，并非简单的功能叠加，而是产生了“1+1>2”的协同效应。

昇腾NPU虚拟化硬切分 并非简单的软件时分复用。它是一种在硬件驱动层实现的、基于物理隔离的资源划分能力。你可以将其理解为在一套物理公寓（NPU卡）内，建造出多个拥有独立产权、独立水电表、隔音墙完备的套房（vNPU）。每个vNPU拥有独占的AI Core、显存（Memory）及其他计算单元（如AI CPU、VPC等）。这意味着：

真实的资源保障：每个vNPU分配到的AI Core和显存是物理上预留的，不会被其他vNPU上的任务抢占，确保了模型推理的延迟稳定性和性能可预测性。
强隔离性：一个vNPU上的进程崩溃、内存泄漏或异常高负载，不会影响到同一张物理卡上其他vNPU的运行，极大地提升了系统的整体可靠性。
灵活的规格定义：昇腾提供了多种预定义的切分模板（如vir10_3c_32g、vir05_1c_16g），用户可以根据模型的实际资源需求，像选择云主机规格一样，为不同模型分配合适的vNPU。

而 Kubernetes 作为容器编排的事实标准，为这些vNPU的“套房”提供了完美的“物业管理”和“租客调度”服务：

资源抽象与调度：Kubernetes可以将vNPU作为一种可扩展的硬件资源（类似于nvidia.com/gpu）进行管理和调度。它负责将包含特定模型的Pod（容器组）精准地调度到拥有目标vNPU的节点上。
生命周期与健康管理：通过Deployment、StatefulSet等资源对象，Kubernetes确保了模型服务的高可用性。结合Liveness Probe、Readiness Probe和Startup Probe，它能自动监控模型服务的健康状态，并在异常时执行重启或迁移，这是单纯使用Docker的--restart参数无法比拟的。
统一的配置与网络：通过ConfigMap、Secret管理模型配置和密钥，通过Service为内部和外部访问提供稳定的网络端点，使得整个部署架构清晰、易于维护。

当硬切分提供了底层的、稳固的资源“隔间”，Kubernetes则在其之上构建了自动化、智能化的运维“大厦”。两者结合，最终实现的目标是：让多个AI模型像微服务一样，安全、高效、弹性地共享同一块高性能计算硬件。

2. 环境准备：从硬件检查到K8s配置

实战开始。假设我们拥有一台Atlas 800I A2（32G或64G版本）服务器，并已安装好标准的Kubernetes集群（如K3s、KubeSphere等）。我们的目标是将这张卡的一部分资源切分出来，同时部署bge-m3和bge-reranker-v2-m3模型。

2.1 NPU状态检查与切分规划

首先，我们需要登录到服务器，检查NPU的当前状态，并规划切分方案。

查看所有NPU信息：使用npu-smi工具，这是管理昇腾设备的瑞士军刀。
```
npu-smi info
```
这条命令会列出所有物理NPU卡的状态，包括卡ID、芯片ID、健康状况、功耗、温度以及当前是否有进程运行。我们需要找到一张空闲的、状态健康的卡作为切分对象。输出中类似Processes: None的标识意味着该卡未被占用。
查询可用的切分模板：不同的NPU型号和显存规格支持的切分模板不同。我们需要根据模型需求选择合适的模板。
```
npu-smi info -t template-info
```
以Atlas 800I A2 (64G)为例，常见的模板可能包括：
- vir10_3c_32g: 分配10个AI Core和32GB显存。
- vir05_1c_16g: 分配5个AI Core和16GB显存。
根据社区实践和模型大小，bge-m3和bge-reranker-v2-m3这类模型在推理时显存占用通常在几个GB到十几GB之间。为了最大化利用资源并留有余量，我们可以选择vir10_3c_32g模板进行1切2，即一张物理卡切分出两个vNPU，每个vNPU拥有10个AI Core和32GB显存（注意：这是逻辑分配，实际物理显存为64G，1切2后每个vNPU分得一半的物理资源）。
记录目标卡信息：假设我们选定卡ID (device

最低0.47元/天解锁文章