WASM 边缘推理：Rust + ONNX Runtime 的浏览器端模型部署实践

最新推荐文章于 2026-06-24 17:59:00 发布

原创最新推荐文章于 2026-06-24 17:59:00 发布 · 174 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#rust #github #python

WASM 边缘推理：Rust + ONNX Runtime 的浏览器端模型部署实践

cover

一、AI 推理的"最后一公里"：为什么要把模型跑在浏览器里

传统 AI 推理的架构是"请求-响应"模式——客户端发送数据到服务器，服务器运行模型推理后返回结果。这种模式在实时性要求不高的场景下没问题，但面对三个核心痛点时开始力不从心：延迟敏感（手势识别、实时滤镜需要 <50ms 响应）、隐私敏感（医疗影像、人脸数据不应离开用户设备）、离线场景（弱网或无网环境下仍需推理能力）。

WebAssembly 的出现让"浏览器端推理"成为可能——WASM 可以接近原生速度执行计算密集型代码，同时保持沙箱安全性。但把一个训练好的 PyTorch 模型搬到浏览器里运行，中间要跨越"模型格式转换→WASM 编译→推理引擎适配→内存管理"四道坎。每一步都有坑，尤其是 ONNX Runtime 的 WASM 后端目前还不够成熟，很多算子不支持，需要手动实现 fallback。

二、WASM 边缘推理的技术架构：模型转换、编译优化与推理调度

flowchart TB
    A[PyTorch 模型 .pt] --> B[ONNX 转换: torch.onnx.export]
    B --> C[ONNX 模型 .onnx]
    C --> D[模型量化: INT8/FP16]
    D --> E[模型文件嵌入 WASM]

    F[Rust 推理引擎] --> F1[wasm-bindgen: JS 互操作]
    F --> F2[ONNX Runtime WASM Backend]
    F --> F3[自定义算子 Fallback]

    E --> G[WASM 模块 .wasm]
    F1 & F2 & F3 --> G

    G --> H[浏览器加载]
    H --> H1[WebWorker: 推理不阻塞 UI]
    H --> H2[WebGL/WASM SIMD: 硬件加速]
    H --> H3[IndexedDB: 模型缓存]

    H1 & H2 & H3 --> I[推理结果返回 JS]

三、WASM 边缘推理的 Rust 代码实现

3.1 ONNX 模型转换与量化

/**
 * 模型转换工具
 * 将 PyTorch 模型导出为 ONNX 格式，并进行量化压缩
 * 注意：这部分在构建时运行，不在 WASM 中执行
 */
use std::process::Command;
use std::path::Path;

#[derive(Debug)]
pub struct ModelConverter {
    pub input_path: String,
    pub output_path: String,
    pub quantization: Quantization,
}

#[derive(Debug, Clone)]
pub enum Quantization {
    FP32,       // 无量化，精度最高
    FP16,       // 半精度，体积减半
    INT8,       // 8位整数量化，体积最小
}

impl ModelConverter {
    /// 创建转换器
    pub fn new(
        input: &str,
        output: &str,
        quant: Quantization,
    ) -> Self {
        ModelConverter {
            input_path: input.to_string(),
            output_path: output.to_string(),
            quantization: quant,
        }
    }

    /// 执行 ONNX 转换（调用 Python 脚本）
    pub fn convert_to_onnx(&self) -> Result<(), String> {
        let script = format!(
            r#"
import torch
import onnx
from onnxruntime.quantization import quantize_dynamic, QuantType

# 加载 PyTorch 模型
model = torch.jit.load("{}")
model.eval()

# 导出为 ONNX
dummy_input = torch.randn(1, 3, 224, 224)
torch.onnx.export(
    model,
    dummy_input,
    "{}",
    input_names=["input"],
    output_names=["output"],
    dynamic_axes={{"input": {{0: "batch"}}, "output": {{0: "batch"}}}},
    opset_version=14,
)

# 量化
if "{}" != "fp32":
    quantize_dynamic(
        "{}",
        "{}_quant.onnx",
        weight_type=QuantType.QUInt8 if "{}" == "int8" else QuantType.QFloat8,
    )
"#,
            self.input_path,
            self.output_path,
            match self.quantization {
                Quantization::FP32 => "fp32",
                Quantization::FP16 => "fp16",
                Quantization::INT8 => "int8",
            },
            self.output_path,
            self.output_path,
            match self.quantization {
                Quantization::FP32 => "fp32",
                Quantization::FP16 => "fp16",
                Quantization::INT8 => "int8",
            },
        );

        // 将脚本写入临时文件并执行
        let script_path = "/tmp/convert_onnx.py";
        std::fs::write(script_path, &script)
            .map_err(|e| format!("写入脚本失败: {}", e))?;

        let output = Command::new("python3")
            .arg(script_path)
            .output()
            .map_err(|e| format!("执行 Python 失败: {}", e))?;

        if !output.status.success() {
            let stderr = String::from_utf8_lossy(&output.stderr);
            return Err(format!("ONNX 转换失败: {}", stderr));
        }

        println!("ONNX 模型已保存到: {}", self.output_path);
        Ok(())
    }

    /// 验证 ONNX 模型的算子兼容性
    pub fn check_operator_compatibility(
        &self,
        model_path: &str,
    ) -> Result<Vec<String>, String> {
        let script = format!(
            r#"
import onnx
model = onnx.load("{}")
unsupported = []
for node in model.graph.node:
    print(f"算子: {{node.op_type}}")
"#,
            model_path
        );

        let script_path = "/tmp/check_ops.py";
        std::fs::write(script_path, &script)
            .map_err(|e| format!("写入脚本失败: {}", e))?;

        let output = Command::new("python3")
            .arg(script_path)
            .output()
            .map_err(|e| format!("执行失败: {}", e))?;

        let result = String::from_utf8_lossy(&output.stdout);
        let ops: Vec<String> = result.lines()
            .filter(|l| l.starts_with("算子:"))
            .map(|l| l.replace("算子: ", ""))
            .collect();

        Ok(ops)
    }
}

3.2 WASM 推理引擎核心

/**
 * WASM 推理引擎
 * 在浏览器中运行 ONNX 模型推理
 * 使用 wasm-bindgen 暴露接口给 JavaScript
 */
use wasm_bindgen::prelude::*;
use web_sys::{console, OffscreenCanvas};

/// 推理结果
#[wasm_bindgen]
#[derive(Debug)]
pub struct InferenceResult {
    predictions: Vec<Prediction>,
    inference_time_ms: f64,
}

#[wasm_bindgen]
#[derive(Debug)]
pub struct Prediction {
    label: String,
    confidence: f32,
}

/// WASM 推理引擎
#[wasm_bindgen]
pub struct WasmInferenceEngine {
    model_bytes: Vec<u8>,
    input_shape: Vec<usize>,
    labels: Vec<String>,
    initialized: bool,
}

#[wasm_bindgen]
impl WasmInferenceEngine {
    /// 创建推理引擎实例
    #[wasm_bindgen(constructor)]
    pub fn new() -> Self {
        WasmInferenceEngine {
            model_bytes: Vec::new(),
            input_shape: vec![1, 3, 224, 224],
            labels: Vec::new(),
            initialized: false,
        }
    }

    /// 加载模型（从 ArrayBuffer）
    pub fn load_model(
        &mut self,
        model_data: &[u8],
    ) -> Result<(), JsValue> {
        self.model_bytes = model_data.to_vec();
        console::log_1(&format!(
            "模型已加载，大小: {} KB",
            self.model_bytes.len() / 1024
        ).into());

        // 验证模型格式（检查 ONNX Magic Number）
        if self.model_bytes.len() < 4 {
            return Err(JsValue::from_str("模型文件过小"));
        }

        // ONNX 文件以 0x08 0x07 开头
        if self.model_bytes[0] != 0x08 || self.model_bytes[1] != 0x07 {
            return Err(JsValue::from_str(
                "无效的 ONNX 模型格式"));
        }

        self.initialized = true;
        Ok(())
    }

    /// 设置分类标签
    pub fn set_labels(&mut self, labels: Vec<String>) {
        self.labels = labels;
    }

    /// 执行推理（简化版：实际应调用 ONNX Runtime WASM）
    pub async fn infer(
        &self,
        input_data: &[f32],
    ) -> Result<InferenceResult, JsValue> {
        if !self.initialized {
            return Err(JsValue::from_str("模型未加载"));
        }

        let expected_size: usize = self.input_shape.iter().product();
        if input_data.len() != expected_size {
            return Err(JsValue::from_str(&format!(
                "输入尺寸不匹配: 期望 {}，实际 {}",
                expected_size,
                input_data.len()
            )));
        }

        let start = js_sys::Date::now();

        // 实际项目中调用 ONNX Runtime WASM Session
        // 此处为简化示例：模拟推理过程
        let logits = self.simulate_inference(input_data);

        let inference_time_ms = js_sys::Date::now() - start;

        // Softmax 转换为概率
        let probabilities = self.softmax(&logits);

        // 取 Top-5 预测
        let mut indexed: Vec<(usize, f32)> = probabilities
            .iter()
            .enumerate()
            .map(|(i, &p)| (i, p))
            .collect();
        indexed.sort_by(|a, b| b.1.partial_cmp(&a.1).unwrap());

        let predictions: Vec<Prediction> = indexed
            .iter()
            .take(5)
            .map(|(idx, conf)| Prediction {
                label: self.labels
                    .get(*idx)
                    .cloned()
                    .unwrap_or_else(|| format!("class_{}", idx)),
                confidence: *conf,
            })
            .collect();

        Ok(InferenceResult {
            predictions,
            inference_time_ms,
        })
    }

    /// Softmax 函数
    fn softmax(&self, logits: &[f32]) -> Vec<f32> {
        let max_val = logits.iter()
            .cloned()
            .fold(f32::NEG_INFINITY, f32::max);

        let exps: Vec<f32> = logits.iter()
            .map(|&v| (v - max_val).exp())
            .collect();

        let sum: f32 = exps.iter().sum();
        exps.iter().map(|&v| v / sum).collect()
    }

    /// 模拟推理（实际项目替换为 ONNX Runtime 调用）
    fn simulate_inference(&self, _input: &[f32]) -> Vec<f32> {
        // 返回随机 logits 用于演示
        vec![0.0; if self.labels.is_empty() {
            1000
        } else {
            self.labels.len()
        }]
    }
}

/// 获取推理结果中的预测
#[wasm_bindgen]
impl InferenceResult {
    pub fn top_prediction(&self) -> String {
        self.predictions.first()
            .map(|p| format!("{}: {:.2}%", p.label, p.confidence * 100.0))
            .unwrap_or_else(|| "无预测结果".to_string())
    }

    pub fn inference_time(&self) -> f64 {
        self.inference_time_ms
    }
}

3.3 JavaScript 侧的集成代码

/**
 * JavaScript 侧的 WASM 推理集成
 * 负责模型加载、图像预处理和结果展示
 */
import init, { WasmInferenceEngine } from './pkg/inference.js';

async function runInference() {
    // 1. 初始化 WASM 模块
    await init();

    // 2. 创建推理引擎
    const engine = new WasmInferenceEngine();

    // 3. 加载模型（从服务器获取 ONNX 文件）
    const modelResponse = await fetch('/models/mobilenet_v2.onnx');
    const modelBuffer = await modelResponse.arrayBuffer();
    const modelBytes = new Uint8Array(modelBuffer);
    engine.load_model(modelBytes);

    // 4. 设置 ImageNet 标签
    const labels = await loadLabels('/labels/imagenet.json');
    engine.set_labels(labels);

    // 5. 图像预处理：Resize + Normalize
    const imageData = preprocessImage(
        document.getElementById('input-image'),
        224, 224  // MobileNet 输入尺寸
    );

    // 6. 执行推理
    const result = await engine.infer(imageData);
    console.log('预测结果:', result.top_prediction());
    console.log('推理耗时:', result.inference_time(), 'ms');
}

/**
 * 图像预处理
 * 将 Canvas 图像转换为模型输入张量
 */
function preprocessImage(imageElement, width, height) {
    const canvas = document.createElement('canvas');
    canvas.width = width;
    canvas.height = height;
    const ctx = canvas.getContext('2d');
    ctx.drawImage(imageElement, 0, 0, width, height);

    const { data } = ctx.getImageData(0, 0, width, height);
    const float32Data = new Float32Array(width * height * 3);

    // HWC → CHW + Normalize (ImageNet mean/std)
    const mean = [0.485, 0.456, 0.406];
    const std = [0.229, 0.224, 0.225];

    for (let i = 0; i < width * height; i++) {
        for (let c = 0; c < 3; c++) {
            float32Data[c * width * height + i] =
                (data[i * 4 + c] / 255.0 - mean[c]) / std[c];
        }
    }

    return float32Data;
}

四、WASM 推理的工程挑战与性能瓶颈

模型体积与加载时间：MobileNetV2 的 FP32 ONNX 模型约 14MB，INT8 量化后约 3.5MB。在 4G 网络下加载 14MB 需要 3-5 秒，严重影响首屏体验。建议使用模型分片加载——先加载 INT8 小模型做快速推理，后台加载 FP32 模型做精确推理。同时利用 IndexedDB 缓存模型文件，二次访问时从本地加载。

算子兼容性问题：ONNX Runtime 的 WASM 后端不支持所有 ONNX 算子。例如，某些自定义的注意力机制算子在 WASM 后端没有实现。解决方案是：导出模型时使用 opset_version=14（兼容性最好），对不支持的算子用 Rust/WASM 手写实现，或使用 ONNX Simplifier 简化模型图减少算子种类。

内存限制：浏览器对 WASM 线性内存有 4GB 上限（32 位地址空间），而大型模型（如 ResNet-152）的推理中间结果可能占用数百 MB。建议使用 Float16Array 存储中间结果，内存占用减半；同时及时释放不再使用的张量，避免内存碎片化。

SIMD 加速的浏览器支持：WASM SIMD 可以将矩阵运算加速 2-4 倍，但 Chrome 91+ 和 Firefox 89+ 才支持。需要准备两份 WASM 文件（SIMD 和非 SIMD），运行时检测 WebAssembly.validate(simdWasmBytes) 决定加载哪个版本。

五、总结

WASM 边缘推理的核心价值是"零延迟 + 隐私保护 + 离线可用"。技术路线是 PyTorch → ONNX 转换 → 量化压缩 → Rust/wasm-bindgen 封装 → 浏览器加载推理。落地时三个关键决策：模型选择 MobileNet/EfficientNet 等轻量架构（<10MB）、量化使用 INT8（体积减 75%、精度损失 <1%）、推理放在 WebWorker 中（不阻塞 UI 线程）。当前最大的工程挑战是 ONNX Runtime WASM 后端的算子覆盖率和内存管理，建议先用小模型验证全链路可行性，再逐步迁移更复杂的模型。