Ctrl+K

Kserve中文文档

快速开始

KServe快速开始

第一个推理服务

与推理服务（InferenceService）的 Swagger 用户界面进行交互

管理指南

安装指南 - Serverless 安装

Istio Service Mesh

AI 网关集成

使用替代网络层部署推理服务（InferenceService）

ModelMesh 安装

Kubernetes deployment 安装

网关API 迁移

用户指南

概念-控制面板

概念-数据面板-开放推理协议扩展

概念-数据面板 - 推理面板

概念-数据面板-推理协议

概念-数据面板-开放推理协议V2

概念 - 推理运行时

LLM推理运行时 - 概览

LLM推理运行时 - 文本生成

LLM推理运行时 - 文生文

LLM推理运行时 - token分类

LLM推理运行时 - 文本分类

LLM 推理运行时 - 填充蒙版

LL推理运行时 - 多节点推理

模型推理运行时 - 概要

模型推理运行时-Tensorflow

模型推理运行时 - PyTorch

模型推理运行时-Scikit-learn

模型推理运行时-XGBoost

模型推理运行时-PMML

模型推理运行时-SparkMLlib

模型推理运行时 - Light GBM

模型推理运行时-Paddle

模型推理运行时-MLFlow

模型推理运行时-ONNX

模型推理运行时-AMD

模型推理运行时-Triton-Torchscript

模型推理运行时-Triton-Tensorflow

模型推理运行时-Triton-HuggingFace

如何写一个自定义推理服务

多模型服务 - 可扩展性问题

多模型服务- ModelMesh 概览

Transformer-Feast

自定义Transformer推理

Transformer和Predictor的协同部署

推理图-概念

推理图-图像识别示例

模型存储 - 存储容器

模型存储 - CA证书配置

模型存储-使用AzureBlob

模型存储 - PVC

模型存储-S3

模型存储－OCI

模型存储-URI

模型存储 - GCS

模型存储 - Hugging Face

模型存储 - 模型缓存

开发指南

如何贡献代码

机器学习概念

单位归一化

大模型周报

大模型周报2025-04-24

大模型周报2025-05-03

模型推理运行时-Triton-HuggingFace

type

status

date

slug

summary

tags

category

icon

password

网址

Nvidia Triton推理服务器是一个强大的服务运行时，具有优化的性能、可扩展性和灵活性。结合Hugging Face广泛的库，它提供最先进的自然语言处理能力，为部署生产就绪的Hugging Face transformer基础模型开启了巨大的可能性。

通过利用这些工具的力量，我们将在此展示KServe如何进一步简化Triton推理容器的部署，并通过自动连接预处理/后处理（分词）与triton推理容器上的模型推理之间的开放推理协议，来实现GPU的高效利用。

导出模型为Triton格式

将Hugging Face模型导出为支持的模型格式Torchscript或ONNX，按照triton模型仓库布局存储。更多详细信息，请参考triton模型配置。

使用Triton和Hugging Face运行时部署推理服务

通过指定storageUri创建带有triton预测器的推理服务，将Hugging Face模型按照triton模型仓库布局存储在云存储中。KServe transformer容器使用KServe Hugging Face运行时进行分词步骤，以编码文本标记并从triton推理容器的输出中解码标记ID。Hugging Face分词容器和triton推理容器可以通过指定--predictor_protocol=v2或--predictor_protocol=grpc-v2来使用REST或gRPC协议进行通信。

执行模型推理

第一步是确定入口IP和端口并设置INGRESS_HOST和INGRESS_PORT。

使用v1 REST协议执行推理

模型推理运行时-Triton-Tensorflow

如何写一个自定义推理服务

Loading...

目录

Last update: 2025-04-18

👏欢迎阅读👏

文章列表

Kserve中文文档

快速开始

KServe快速开始

第一个推理服务

与推理服务（InferenceService）的 Swagger 用户界面进行交互

管理指南

安装指南 - Serverless 安装

Istio Service Mesh

AI 网关集成

使用替代网络层部署推理服务（InferenceService）

ModelMesh 安装

Kubernetes deployment 安装

网关API 迁移

用户指南

概念-控制面板

概念-数据面板-开放推理协议扩展

概念-数据面板 - 推理面板

概念-数据面板-推理协议

概念-数据面板-开放推理协议V2

概念 - 推理运行时

LLM推理运行时 - 概览

LLM推理运行时 - 文本生成

LLM推理运行时 - 文生文

LLM推理运行时 - token分类

LLM推理运行时 - 文本分类

LLM 推理运行时 - 填充蒙版

LL推理运行时 - 多节点推理

模型推理运行时 - 概要

模型推理运行时-Tensorflow

模型推理运行时 - PyTorch

模型推理运行时-Scikit-learn

模型推理运行时-XGBoost

模型推理运行时-PMML

模型推理运行时-SparkMLlib

模型推理运行时 - Light GBM

模型推理运行时-Paddle

模型推理运行时-MLFlow

模型推理运行时-ONNX

模型推理运行时-AMD

模型推理运行时-Triton-Torchscript

模型推理运行时-Triton-Tensorflow

模型推理运行时-Triton-HuggingFace

如何写一个自定义推理服务

多模型服务 - 可扩展性问题

多模型服务- ModelMesh 概览

Transformer-Feast

自定义Transformer推理

Transformer和Predictor的协同部署

推理图-概念

推理图-图像识别示例

模型存储 - 存储容器

模型存储 - CA证书配置

模型存储-使用AzureBlob

模型存储 - PVC

模型存储-S3

模型存储－OCI

模型存储-URI

模型存储 - GCS

模型存储 - Hugging Face

模型存储 - 模型缓存

开发指南

如何贡献代码

机器学习概念

单位归一化

大模型周报

大模型周报2025-04-24

大模型周报2025-05-03