Ctrl+K

Kserve中文文档

快速开始

KServe快速开始

第一个推理服务

与推理服务（InferenceService）的 Swagger 用户界面进行交互

管理指南

安装指南 - Serverless 安装

Istio Service Mesh

AI 网关集成

使用替代网络层部署推理服务（InferenceService）

ModelMesh 安装

Kubernetes deployment 安装

网关API 迁移

用户指南

概念-控制面板

概念-数据面板-开放推理协议扩展

概念-数据面板 - 推理面板

概念-数据面板-推理协议

概念-数据面板-开放推理协议V2

概念 - 推理运行时

LLM推理运行时 - 概览

LLM推理运行时 - 文本生成

LLM推理运行时 - 文生文

LLM推理运行时 - token分类

LLM推理运行时 - 文本分类

LLM 推理运行时 - 填充蒙版

LL推理运行时 - 多节点推理

模型推理运行时 - 概要

模型推理运行时-Tensorflow

模型推理运行时 - PyTorch

模型推理运行时-Scikit-learn

模型推理运行时-XGBoost

模型推理运行时-PMML

模型推理运行时-SparkMLlib

模型推理运行时 - Light GBM

模型推理运行时-Paddle

模型推理运行时-MLFlow

模型推理运行时-ONNX

模型推理运行时-AMD

模型推理运行时-Triton-Torchscript

模型推理运行时-Triton-Tensorflow

模型推理运行时-Triton-HuggingFace

如何写一个自定义推理服务

多模型服务 - 可扩展性问题

多模型服务- ModelMesh 概览

Transformer-Feast

自定义Transformer推理

Transformer和Predictor的协同部署

推理图-概念

推理图-图像识别示例

模型存储 - 存储容器

模型存储 - CA证书配置

模型存储-使用AzureBlob

模型存储 - PVC

模型存储-S3

模型存储－OCI

模型存储-URI

模型存储 - GCS

模型存储 - Hugging Face

模型存储 - 模型缓存

开发指南

如何贡献代码

机器学习概念

单位归一化

大模型周报

大模型周报2025-04-24

大模型周报2025-05-03

Transformer和Predictor的协同部署

type

status

date

slug

summary

tags

category

icon

password

网址

默认情况下，KServe将Transformer和Predictor部署为独立的服务，允许您在不同的设备上部署它们并独立进行扩展。

然而，在某些情况下，您可能更倾向于将transformer和predictor部署在同一个pod中。以下是一些场景：

如果您的transformer与predictor紧密耦合，并且希望一起执行金丝雀部署。

如果您想减少sidecar资源消耗。

如果您想减少网络延迟。

开始之前

您的~/.kube/config应指向已安装KServe的集群。

您集群的Istio入口网关必须是网络可访问的。

您可以在kserve代码库中找到代码示例。

部署推理服务

由于predictor和transformer在同一个pod中，它们需要监听不同的端口以避免冲突。Transformer配置为监听8080端口（REST）和8081端口（GRPC），而Predictor监听8085端口（REST）。Transformer通过本地socket在8085端口调用Predictor。使用以下命令部署Inferenceservice。

预期输出

⚠️

警告：transformer容器名称必须设置为transformer-container。否则，模型卷将无法挂载到transformer容器中，这可能导致错误。

⚠️

警告：predictor容器名称必须设置为kserve-container。KServe在内部使用此名称来识别predictor。storage uri只能在此容器中指定。如果在transformer容器中指定，isvc创建将失败。

📔

注意：目前，协同部署仅支持kserve模型容器的自定义容器规范。

📔

注意：在Serverless模式下，为predictor指定端口将导致isvc创建失败，因为knative不支持指定多个端口。由于此限制，predictor无法暴露给集群外部。更多信息请参见knative关于多端口的讨论。

检查推理服务状态

预期输出

注意

如果您的DNS包含 svc.cluster.local，则 Inferenceservice 不会通过Ingress暴露。您需要配置DNS或使用自定义域名来暴露 isvc。

运行预测

准备推理请求的输入。将以下Json复制到名为 input.json 的文件中。

现在，确定入口IP和端口并设置 INGRESS_HOST 和 INGRESS_PORT

您可以使用 curl 发送推理请求：

预期输出

自定义Transformer推理

推理图-概念

Loading...

目录

Last update: 2025-04-22

👏欢迎阅读👏

文章列表

Kserve中文文档

快速开始

KServe快速开始

第一个推理服务

与推理服务（InferenceService）的 Swagger 用户界面进行交互

管理指南

安装指南 - Serverless 安装

Istio Service Mesh

AI 网关集成

使用替代网络层部署推理服务（InferenceService）

ModelMesh 安装

Kubernetes deployment 安装

网关API 迁移

用户指南

概念-控制面板

概念-数据面板-开放推理协议扩展

概念-数据面板 - 推理面板

概念-数据面板-推理协议

概念-数据面板-开放推理协议V2

概念 - 推理运行时

LLM推理运行时 - 概览

LLM推理运行时 - 文本生成

LLM推理运行时 - 文生文

LLM推理运行时 - token分类

LLM推理运行时 - 文本分类

LLM 推理运行时 - 填充蒙版

LL推理运行时 - 多节点推理

模型推理运行时 - 概要

模型推理运行时-Tensorflow

模型推理运行时 - PyTorch

模型推理运行时-Scikit-learn

模型推理运行时-XGBoost

模型推理运行时-PMML

模型推理运行时-SparkMLlib

模型推理运行时 - Light GBM

模型推理运行时-Paddle

模型推理运行时-MLFlow

模型推理运行时-ONNX

模型推理运行时-AMD

模型推理运行时-Triton-Torchscript

模型推理运行时-Triton-Tensorflow

模型推理运行时-Triton-HuggingFace

如何写一个自定义推理服务

多模型服务 - 可扩展性问题

多模型服务- ModelMesh 概览

Transformer-Feast

自定义Transformer推理

Transformer和Predictor的协同部署

推理图-概念

推理图-图像识别示例

模型存储 - 存储容器

模型存储 - CA证书配置

模型存储-使用AzureBlob

模型存储 - PVC

模型存储-S3

模型存储－OCI

模型存储-URI

模型存储 - GCS

模型存储 - Hugging Face

模型存储 - 模型缓存

开发指南

如何贡献代码

机器学习概念

单位归一化

大模型周报

大模型周报2025-04-24

大模型周报2025-05-03