Triton Inference Server教程2

原创

已于 2022-07-02 17:31:33 修改 · 6.6k 阅读

标签

#深度学习 #人工智能

收录于

于 2022-07-02 17:30:08 首次发布

本文介绍了Triton推理服务器的config.pbtxt配置文件编写方法，涵盖了必须指定的模型参数如platform/backend、maxbatchsize及输入输出配置，并解析了可选配置参数如version_policy、Instance_group、schedulingandbatching等的作用。

本文介绍如何编写一个config文件，config.pbtxt文件中包含哪些可以配置的参数，这些参数又会对triton server产生什么影响。

必须指定的模型参数

platform/backend：模型要在什么backend上面运行，可以用两种参数指定，一个是platform，一个是backend，对于某些模型，两个参数二选一即可，某些模型必须从中选一个指定，具体的规则如下：

图中TensorRT，onnx RT，PyTorch三种模型可以platform或者backend随便指定一个即可；对于Tensorflow，platform平台是必须指定的，backend平台是可选的；对于OpenVINO、python、DALI，backend是必须指定的
max batch size 模型执行推理最大的batch是多少，这个参数主要是限制推理中模型参数不会超过模型显存，或者gpu内存，保证推理服务不会因为爆显存而挂掉
input and output：指定输入输出名称
特别的，当模型是由TensorRT、Tensorflow、onnx生成的，且设置strict-model-config=false时，可以不需要config.pbtxt文件。
配置文件示例说明