triton作为一个NVIDIA开源的商用级别的服务框架,个人认为很好用而且很稳定,API接口的变化也不大,我从2020年的20.06切换到2022年的22.06,两个大版本切换,一些涉及到代码的工程变动很少,稍微修改修改就可以直接复用,很方便。
本系列讲解的版本也是基于22.06。
本系列讲解重点是结合实际的应用场景以及源码分析,以及写一些triton周边的插件、集成等。非速成,适合同样喜欢深入的小伙伴。
什么是triton inference server?
肯定很多人想知道triton干啥的,学习这个有啥用?这里简单解释一下:
- triton可以充当服务框架去部署你的深度学习模型,其他用户可以通过http或者grpc去请求,相当于你用flask搭了个服务供别人请求,当然相比flask的性能高很多了
- triton也可以摘出C-API充当多线程推理服务框架,去除http和grpc部分,适合本地部署多模型,比如你有很多模型要部署,然后分时段调用,或者有pipeline,有了triton就省去你处理显存、内存和线程的麻烦
注意,还有一个同名的 triton是GPU编程语言
NVIDIA Triton是一个开源的商用级别服务框架,用于部署深度学习模型,提供高性能的推理服务。支持多种后端如TensorRT、libtorch等,并允许自定义。该文介绍了Triton的主要功能、优点、学习途径、编译安装方法,以及简单的请求操作,适合对深度学习部署感兴趣的开发者。
订阅专栏 解锁全文
【旧称:TensorRT serving,专门针对TensorRT设计的服务器框架,后来变为Triton,支持其他推理后端】&spm=1001.2101.3001.5002&articleId=132051054&d=1&t=3&u=2fd4a22c50a74ced8eed1dc6a5b3fa06)
2492

被折叠的 条评论
为什么被折叠?



