模型推理运行时-Triton-HuggingFace
type
status
date
slug
summary
tags
category
icon
password
网址
Nvidia Triton推理服务器是一个强大的服务运行时,具有优化的性能、可扩展性和灵活性。结合Hugging Face广泛的库,它提供最先进的自然语言处理能力,为部署生产就绪的Hugging Face transformer基础模型开启了巨大的可能性。
通过利用这些工具的力量,我们将在此展示KServe如何进一步简化Triton推理容器的部署,并通过自动连接预处理/后处理(分词)与triton推理容器上的模型推理之间的开放推理协议,来实现GPU的高效利用。
导出模型为Triton格式
将Hugging Face模型导出为支持的模型格式Torchscript或ONNX,按照triton模型仓库布局存储。更多详细信息,请参考triton模型配置。
使用Triton和Hugging Face运行时部署推理服务
通过指定
storageUri
创建带有triton预测器的推理服务,将Hugging Face模型按照triton模型仓库布局存储在云存储中。KServe transformer容器使用KServe Hugging Face运行时进行分词步骤,以编码文本标记并从triton推理容器的输出中解码标记ID。Hugging Face分词容器和triton推理容器可以通过指定--predictor_protocol=v2
或--predictor_protocol=grpc-v2
来使用REST或gRPC协议进行通信。执行模型推理
使用v1 REST协议执行推理
上一篇
模型推理运行时-Triton-Tensorflow
下一篇
如何写一个自定义推理服务
Loading...