Ctrl+K

Kserve中文文档

快速开始

KServe快速开始

第一个推理服务

与推理服务（InferenceService）的 Swagger 用户界面进行交互

管理指南

安装指南 - Serverless 安装

Istio Service Mesh

AI 网关集成

使用替代网络层部署推理服务（InferenceService）

ModelMesh 安装

Kubernetes deployment 安装

网关API 迁移

用户指南

概念-控制面板

概念-数据面板-开放推理协议扩展

概念-数据面板 - 推理面板

概念-数据面板-推理协议

概念-数据面板-开放推理协议V2

概念 - 推理运行时

LLM推理运行时 - 概览

LLM推理运行时 - 文本生成

LLM推理运行时 - 文生文

LLM推理运行时 - token分类

LLM推理运行时 - 文本分类

LLM 推理运行时 - 填充蒙版

LL推理运行时 - 多节点推理

模型推理运行时 - 概要

模型推理运行时-Tensorflow

模型推理运行时 - PyTorch

模型推理运行时-Scikit-learn

模型推理运行时-XGBoost

模型推理运行时-PMML

模型推理运行时-SparkMLlib

模型推理运行时 - Light GBM

模型推理运行时-Paddle

模型推理运行时-MLFlow

模型推理运行时-ONNX

模型推理运行时-AMD

模型推理运行时-Triton-Torchscript

模型推理运行时-Triton-Tensorflow

模型推理运行时-Triton-HuggingFace

如何写一个自定义推理服务

多模型服务 - 可扩展性问题

多模型服务- ModelMesh 概览

Transformer-Feast

自定义Transformer推理

Transformer和Predictor的协同部署

推理图-概念

推理图-图像识别示例

模型存储 - 存储容器

模型存储 - CA证书配置

模型存储-使用AzureBlob

模型存储 - PVC

模型存储-S3

模型存储－OCI

模型存储-URI

模型存储 - GCS

模型存储 - Hugging Face

模型存储 - 模型缓存

开发指南

如何贡献代码

机器学习概念

单位归一化

大模型周报

大模型周报2025-04-24

大模型周报2025-05-03

模型推理运行时-MLFlow

type

status

date

slug

summary

tags

category

icon

password

网址

本示例将指导您如何部署mlflow模型利用KServe InferenceService CRD以及如何使用V2数据平面发送推理请求。

训练

第一步是训练一个样本sklearn模型并通过调用mlflow log_model API将其保存为mlflow模型格式。

训练脚本还将使用MLflow模型格式序列化我们训练好的模型。

本地测试

一旦你获得了序列化的model.pkl，我们就可以使用MLServer来启动本地服务器。关于MLServer的更多详细信息，请查看MLflow示例文档。

注意

这一步是可选的，仅用于测试，你可以直接跳转到使用InferenceService部署。

前提条件

首先，要在本地使用MLServer，你需要在本地环境中安装mlserver包以及MLflow运行时。

模型设置

下一步是提供一些模型设置，以便MLServer知道：

用于服务模型的推理运行时（即mlserver_mlflow.MLflowRuntime）

模型的名称和版本

这些可以通过环境变量指定，或者通过创建本地model-settings.json文件：

本地启动模型服务器

在本地安装了mlserver包并创建了本地model-settings.json文件后，你就可以按以下方式启动服务器：

使用InferenceService部署

当你使用InferenceService部署模型时，KServe会注入合理的默认值，使其无需任何进一步配置即可运行。但是，你仍然可以通过提供与本地类似的model-settings.json文件来覆盖这些默认值。你甚至可以提供一组model-settings.json文件来加载多个模型。

要使用v2协议进行已部署模型的推理，你需要将protocolVersion字段设置为v2，在本例中，你的模型制品已上传到"GCS模型仓库"，可以通过gs://kfserving-examples/models/mlflow/wine访问。

新架构

kubectl

测试已部署的模型

现在你可以通过发送示例请求来测试已部署的模型。

注意，此请求需要遵循V2数据平面协议。以下是一个示例负载：

现在，假设你的入口可以通过${INGRESS_HOST}:${INGRESS_PORT}访问，或者你可以按照这个说明查找你的入口IP和端口。

你可以使用curl发送推理请求：

预期输出

模型推理运行时-Paddle

模型推理运行时-ONNX

Loading...

目录

Last update: 2025-04-18

👏欢迎阅读👏

文章列表

Kserve中文文档

快速开始

KServe快速开始

第一个推理服务

与推理服务（InferenceService）的 Swagger 用户界面进行交互

管理指南

安装指南 - Serverless 安装

Istio Service Mesh

AI 网关集成

使用替代网络层部署推理服务（InferenceService）

ModelMesh 安装

Kubernetes deployment 安装

网关API 迁移

用户指南

概念-控制面板

概念-数据面板-开放推理协议扩展

概念-数据面板 - 推理面板

概念-数据面板-推理协议

概念-数据面板-开放推理协议V2

概念 - 推理运行时

LLM推理运行时 - 概览

LLM推理运行时 - 文本生成

LLM推理运行时 - 文生文

LLM推理运行时 - token分类

LLM推理运行时 - 文本分类

LLM 推理运行时 - 填充蒙版

LL推理运行时 - 多节点推理

模型推理运行时 - 概要

模型推理运行时-Tensorflow

模型推理运行时 - PyTorch

模型推理运行时-Scikit-learn

模型推理运行时-XGBoost

模型推理运行时-PMML

模型推理运行时-SparkMLlib

模型推理运行时 - Light GBM

模型推理运行时-Paddle

模型推理运行时-MLFlow

模型推理运行时-ONNX

模型推理运行时-AMD

模型推理运行时-Triton-Torchscript

模型推理运行时-Triton-Tensorflow

模型推理运行时-Triton-HuggingFace

如何写一个自定义推理服务

多模型服务 - 可扩展性问题

多模型服务- ModelMesh 概览

Transformer-Feast

自定义Transformer推理

Transformer和Predictor的协同部署

推理图-概念

推理图-图像识别示例

模型存储 - 存储容器

模型存储 - CA证书配置

模型存储-使用AzureBlob

模型存储 - PVC

模型存储-S3

模型存储－OCI

模型存储-URI

模型存储 - GCS

模型存储 - Hugging Face

模型存储 - 模型缓存

开发指南

如何贡献代码

机器学习概念

单位归一化

大模型周报

大模型周报2025-04-24

大模型周报2025-05-03