Ctrl+K

Kserve中文文档

快速开始

KServe快速开始

第一个推理服务

与推理服务（InferenceService）的 Swagger 用户界面进行交互

管理指南

安装指南 - Serverless 安装

Istio Service Mesh

AI 网关集成

使用替代网络层部署推理服务（InferenceService）

ModelMesh 安装

Kubernetes deployment 安装

网关API 迁移

用户指南

概念-控制面板

概念-数据面板-开放推理协议扩展

概念-数据面板 - 推理面板

概念-数据面板-推理协议

概念-数据面板-开放推理协议V2

概念 - 推理运行时

LLM推理运行时 - 概览

LLM推理运行时 - 文本生成

LLM推理运行时 - 文生文

LLM推理运行时 - token分类

LLM推理运行时 - 文本分类

LLM 推理运行时 - 填充蒙版

LL推理运行时 - 多节点推理

模型推理运行时 - 概要

模型推理运行时-Tensorflow

模型推理运行时 - PyTorch

模型推理运行时-Scikit-learn

模型推理运行时-XGBoost

模型推理运行时-PMML

模型推理运行时-SparkMLlib

模型推理运行时 - Light GBM

模型推理运行时-Paddle

模型推理运行时-MLFlow

模型推理运行时-ONNX

模型推理运行时-AMD

模型推理运行时-Triton-Torchscript

模型推理运行时-Triton-Tensorflow

模型推理运行时-Triton-HuggingFace

如何写一个自定义推理服务

多模型服务 - 可扩展性问题

多模型服务- ModelMesh 概览

Transformer-Feast

自定义Transformer推理

Transformer和Predictor的协同部署

推理图-概念

推理图-图像识别示例

模型存储 - 存储容器

模型存储 - CA证书配置

模型存储-使用AzureBlob

模型存储 - PVC

模型存储-S3

模型存储－OCI

模型存储-URI

模型存储 - GCS

模型存储 - Hugging Face

模型存储 - 模型缓存

开发指南

如何贡献代码

机器学习概念

单位归一化

大模型周报

大模型周报2025-04-24

大模型周报2025-05-03

概念-数据面板-推理协议

type

status

date

slug

summary

tags

category

icon

password

网址

KServe的V1协议为所有模型框架提供了标准化的预测工作流程。该协议版本仍然受支持，但建议用户迁移到V2协议以获得更好的性能和服务运行时的标准化。但是，如果用例需要比协议v2更灵活的架构，v1协议仍然是一个选择。

API	动作	路径	请求负载	响应负载
列出模型	GET	/v1/models	ㅤ	{"models": [<model_name>]}
模型就绪	GET	/v1/models/<model_name>	ㅤ	{"name": <model_name>,"ready": $bool}
预测	POST	/v1/models/<model_name>:predict	{"instances": []} **	{"predictions": []}
解释	POST	/v1/models/<model_name>:explain	{"instances": []} **	{"predictions": [], "explanations": []}

= 负载是可选的

注意：V1协议中的响应负载并不严格强制执行。自定义服务器可以定义并返回其自己的响应负载。我们鼓励使用KServe定义的响应负载以保持一致性。

API定义

API	定义
预测	"预测"API在模型上执行推理。响应是预测结果。所有推理服务都遵循Tensorflow V1 HTTP API。
解释	"解释"API是一个可选组件，除了预测之外还提供模型解释。标准化的解释器接口与Tensorflow V1 HTTP API相同，只是添加了":explain"动作。
模型就绪	"模型就绪"健康API指示特定模型是否准备好进行推理。如果模型已下载并准备好服务请求，模型就绪端点将返回可访问模型的列表。
列出模型	"模型"API展示模型注册表中的模型列表。

概念-数据面板 - 推理面板

概念-数据面板-开放推理协议V2

Loading...

目录

Last update: 2025-04-14

👏欢迎阅读👏

文章列表

Kserve中文文档

快速开始

KServe快速开始

第一个推理服务

与推理服务（InferenceService）的 Swagger 用户界面进行交互

管理指南

安装指南 - Serverless 安装

Istio Service Mesh

AI 网关集成

使用替代网络层部署推理服务（InferenceService）

ModelMesh 安装

Kubernetes deployment 安装

网关API 迁移

用户指南

概念-控制面板

概念-数据面板-开放推理协议扩展

概念-数据面板 - 推理面板

概念-数据面板-推理协议

概念-数据面板-开放推理协议V2

概念 - 推理运行时

LLM推理运行时 - 概览

LLM推理运行时 - 文本生成

LLM推理运行时 - 文生文

LLM推理运行时 - token分类

LLM推理运行时 - 文本分类

LLM 推理运行时 - 填充蒙版

LL推理运行时 - 多节点推理

模型推理运行时 - 概要

模型推理运行时-Tensorflow

模型推理运行时 - PyTorch

模型推理运行时-Scikit-learn

模型推理运行时-XGBoost

模型推理运行时-PMML

模型推理运行时-SparkMLlib

模型推理运行时 - Light GBM

模型推理运行时-Paddle

模型推理运行时-MLFlow

模型推理运行时-ONNX

模型推理运行时-AMD

模型推理运行时-Triton-Torchscript

模型推理运行时-Triton-Tensorflow

模型推理运行时-Triton-HuggingFace

如何写一个自定义推理服务

多模型服务 - 可扩展性问题

多模型服务- ModelMesh 概览

Transformer-Feast

自定义Transformer推理

Transformer和Predictor的协同部署

推理图-概念

推理图-图像识别示例

模型存储 - 存储容器

模型存储 - CA证书配置

模型存储-使用AzureBlob

模型存储 - PVC

模型存储-S3

模型存储－OCI

模型存储-URI

模型存储 - GCS

模型存储 - Hugging Face

模型存储 - 模型缓存

开发指南

如何贡献代码

机器学习概念

单位归一化

大模型周报

大模型周报2025-04-24

大模型周报2025-05-03