Ctrl+K

Kserve中文文档

快速开始

KServe快速开始

第一个推理服务

与推理服务（InferenceService）的 Swagger 用户界面进行交互

管理指南

安装指南 - Serverless 安装

Istio Service Mesh

AI 网关集成

使用替代网络层部署推理服务（InferenceService）

ModelMesh 安装

Kubernetes deployment 安装

网关API 迁移

用户指南

概念-控制面板

概念-数据面板-开放推理协议扩展

概念-数据面板 - 推理面板

概念-数据面板-推理协议

概念-数据面板-开放推理协议V2

概念 - 推理运行时

LLM推理运行时 - 概览

LLM推理运行时 - 文本生成

LLM推理运行时 - 文生文

LLM推理运行时 - token分类

LLM推理运行时 - 文本分类

LLM 推理运行时 - 填充蒙版

LL推理运行时 - 多节点推理

模型推理运行时 - 概要

模型推理运行时-Tensorflow

模型推理运行时 - PyTorch

模型推理运行时-Scikit-learn

模型推理运行时-XGBoost

模型推理运行时-PMML

模型推理运行时-SparkMLlib

模型推理运行时 - Light GBM

模型推理运行时-Paddle

模型推理运行时-MLFlow

模型推理运行时-ONNX

模型推理运行时-AMD

模型推理运行时-Triton-Torchscript

模型推理运行时-Triton-Tensorflow

模型推理运行时-Triton-HuggingFace

如何写一个自定义推理服务

多模型服务 - 可扩展性问题

多模型服务- ModelMesh 概览

Transformer-Feast

自定义Transformer推理

Transformer和Predictor的协同部署

推理图-概念

推理图-图像识别示例

模型存储 - 存储容器

模型存储 - CA证书配置

模型存储-使用AzureBlob

模型存储 - PVC

模型存储-S3

模型存储－OCI

模型存储-URI

模型存储 - GCS

模型存储 - Hugging Face

模型存储 - 模型缓存

开发指南

如何贡献代码

机器学习概念

单位归一化

大模型周报

大模型周报2025-04-24

大模型周报2025-05-03

模型推理运行时-Triton-Tensorflow

type

status

date

slug

summary

tags

category

icon

password

网址

双向嵌入表示转换器（BERT）是一种预训练语言表示的方法，在广泛的自然语言处理（NLP）任务中都能取得最先进的结果。

本示例演示了

使用BERT Base/Large模型进行问答（QA）任务推理

使用经过微调的NVIDIA BERT模型

部署Transformer用于使用BERT分词器进行预处理

在Triton推理服务器上部署BERT模型

使用V2 KServe协议进行推理

我们可以在经过微调的BERT模型上运行问答等任务的推理。

这里我们使用了在SQuaD 2.0数据集上微调的BERT模型，该数据集包含了500多篇文章中的10万多个问答对，以及5万多个新的无法回答的问题。

设置

您集群的Istio入口网关必须是网络可访问的。

为nvcr.io跳过标签解析，因为解析triton推理服务器镜像摘要需要认证

由于拉取triton镜像和大型bert模型可能超过默认的120秒超时时间，增加进度截止时间，此设置需要knative 0.15.0+

创建BERT分词器的自定义Transformer

扩展ModelServer基类并实现预处理/后处理

preprocess处理程序使用BERT分词器将段落和问题转换为BERT输入

predict处理程序使用PYTHON REST API调用Triton Inference Server

postprocess处理程序将原始预测转换为带概率的答案

请在此处查看代码示例。

构建Transformer Docker镜像

使用上述代码构建KServe Transformer镜像

或者您可以使用预构建镜像kfserving/bert-transformer-v2:latest

创建推理服务

将上述自定义KServe Transformer镜像和Triton预测器添加到InferenceService规范中

应用 InferenceService yaml文件。

预期输出

检查推理服务

您将看到转换器和预测器都已创建并处于就绪状态

运行预测

第一步是确定入口IP和端口并设置 INGRESS_HOST 和 INGRESS_PORT

使用以下输入发送问题请求，转换器需要发送 instances 或 inputs 列表，然后 preprocess 将输入转换为发送给 Triton Inference Server 的预期张量。

预期输出

模型推理运行时-Triton-Torchscript

模型推理运行时-Triton-HuggingFace

Loading...

目录

Last update: 2025-04-18

👏欢迎阅读👏

文章列表

Kserve中文文档

快速开始

KServe快速开始

第一个推理服务

与推理服务（InferenceService）的 Swagger 用户界面进行交互

管理指南

安装指南 - Serverless 安装

Istio Service Mesh

AI 网关集成

使用替代网络层部署推理服务（InferenceService）

ModelMesh 安装

Kubernetes deployment 安装

网关API 迁移

用户指南

概念-控制面板

概念-数据面板-开放推理协议扩展

概念-数据面板 - 推理面板

概念-数据面板-推理协议

概念-数据面板-开放推理协议V2

概念 - 推理运行时

LLM推理运行时 - 概览

LLM推理运行时 - 文本生成

LLM推理运行时 - 文生文

LLM推理运行时 - token分类

LLM推理运行时 - 文本分类

LLM 推理运行时 - 填充蒙版

LL推理运行时 - 多节点推理

模型推理运行时 - 概要

模型推理运行时-Tensorflow

模型推理运行时 - PyTorch

模型推理运行时-Scikit-learn

模型推理运行时-XGBoost

模型推理运行时-PMML

模型推理运行时-SparkMLlib

模型推理运行时 - Light GBM

模型推理运行时-Paddle

模型推理运行时-MLFlow

模型推理运行时-ONNX

模型推理运行时-AMD

模型推理运行时-Triton-Torchscript

模型推理运行时-Triton-Tensorflow

模型推理运行时-Triton-HuggingFace

如何写一个自定义推理服务

多模型服务 - 可扩展性问题

多模型服务- ModelMesh 概览

Transformer-Feast

自定义Transformer推理

Transformer和Predictor的协同部署

推理图-概念

推理图-图像识别示例

模型存储 - 存储容器

模型存储 - CA证书配置

模型存储-使用AzureBlob

模型存储 - PVC

模型存储-S3

模型存储－OCI

模型存储-URI

模型存储 - GCS

模型存储 - Hugging Face

模型存储 - 模型缓存

开发指南

如何贡献代码

机器学习概念

单位归一化

大模型周报

大模型周报2025-04-24

大模型周报2025-05-03