模型推理运行时-Triton-HuggingFace

type
status
date
slug
summary
tags
category
icon
password
网址
 
Nvidia Triton推理服务器是一个强大的服务运行时,具有优化的性能、可扩展性和灵活性。结合Hugging Face广泛的库,它提供最先进的自然语言处理能力,为部署生产就绪的Hugging Face transformer基础模型开启了巨大的可能性。
通过利用这些工具的力量,我们将在此展示KServe如何进一步简化Triton推理容器的部署,并通过自动连接预处理/后处理(分词)与triton推理容器上的模型推理之间的开放推理协议,来实现GPU的高效利用。

导出模型为Triton格式

将Hugging Face模型导出为支持的模型格式Torchscript或ONNX,按照triton模型仓库布局存储。更多详细信息,请参考triton模型配置

使用Triton和Hugging Face运行时部署推理服务

通过指定storageUri创建带有triton预测器的推理服务,将Hugging Face模型按照triton模型仓库布局存储在云存储中。KServe transformer容器使用KServe Hugging Face运行时进行分词步骤,以编码文本标记并从triton推理容器的输出中解码标记ID。Hugging Face分词容器和triton推理容器可以通过指定--predictor_protocol=v2--predictor_protocol=grpc-v2来使用REST或gRPC协议进行通信。

执行模型推理

第一步是确定入口IP和端口并设置INGRESS_HOSTINGRESS_PORT
使用v1 REST协议执行推理
上一篇
模型推理运行时-Triton-Tensorflow
下一篇
如何写一个自定义推理服务
Loading...
文章列表
Kserve中文文档
快速开始
管理指南
用户指南
开发指南
机器学习概念
大模型周报