深度学习部署：Triton（Triton inference server）【旧称：TensorRT serving，专门针对TensorRT设计的服务器框架，后来变为Triton，支持其他推理后端】

原创已于 2024-02-17 00:08:16 修改 · 2.9k 阅读

·

3

·

标签

#深度学习 #人工智能

于 2023-08-01 21:18:53 首次发布

LLM/部署&推理专栏收录该内容

101 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

NVIDIA Triton是一个开源的商用级别服务框架，用于部署深度学习模型，提供高性能的推理服务。支持多种后端如TensorRT、libtorch等，并允许自定义。该文介绍了Triton的主要功能、优点、学习途径、编译安装方法，以及简单的请求操作，适合对深度学习部署感兴趣的开发者。

开发板推荐：天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

点击查看

triton作为一个NVIDIA开源的商用级别的服务框架，个人认为很好用而且很稳定，API接口的变化也不大，我从2020年的20.06切换到2022年的22.06，两个大版本切换，一些涉及到代码的工程变动很少，稍微修改修改就可以直接复用，很方便。

本系列讲解的版本也是基于22.06。

本系列讲解重点是结合实际的应用场景以及源码分析，以及写一些triton周边的插件、集成等。非速成，适合同样喜欢深入的小伙伴。

什么是triton inference server？

肯定很多人想知道triton干啥的，学习这个有啥用？这里简单解释一下：

triton可以充当服务框架去部署你的深度学习模型，其他用户可以通过http或者grpc去请求，相当于你用flask搭了个服务供别人请求，当然相比flask的性能高很多了
triton也可以摘出C-API充当多线程推理服务框架，去除http和grpc部分，适合本地部署多模型，比如你有很多模型要部署，然后分时段调用，或者有pipeline，有了triton就省去你处理显存、内存和线程的麻烦

注意，还有一个同名的 triton是GPU编程语言

开发板推荐：天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

点击查看

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。