模型推理运行时 - 概要

type

status

date

slug

summary

category

icon

password

网址

KServe提供了一个简单的Kubernetes CRD，可以将单个或多个训练好的模型部署到模型推理运行时上，如TFServing、TorchServe、Triton推理服务器。对于Hugging Face模型，KServe提供Hugging Face服务器来托管基于transformer的模型，支持开放推理和OpenAI协议。此外，ModelServer是KServe自身实现的Python模型推理运行时，支持v1预测和开放推理协议(v2)。这些模型推理运行时能够提供开箱即用的模型服务，但您也可以选择为更复杂的用例构建自己的模型服务器。KServe提供基本的API原语，让您能够轻松构建自定义模型推理运行时，您可以使用BentoML等工具来构建自定义模型服务镜像。

使用InferenceService部署模型后，您可以获得KServe提供的以下所有serverless功能。

弹性伸缩到零和从零扩展

基于CPU/GPU的请求自动扩缩

版本管理

优化的容器

批处理

请求/响应日志记录

流量管理

身份认证/授权的安全机制

分布式追踪

开箱即用的指标

入站/出站控制

下表列出了KServe支持的每种模型推理运行时。HTTP和gRPC列表示推理运行时支持的预测协议版本。KServe预测协议标注为"v1"或"v2"。某些推理运行时还支持自己的预测协议，这些用*标注。默认推理运行时版本列定义了推理运行时的来源和版本 - MLServer、KServe或其自身。这些版本也可以在运行时kustomization YAML中找到。所有KServe原生模型推理运行时都使用当前的KServe发布版本(v0.12)。支持的框架版本列列出了支持的模型的主要版本。这些也可以在相应的运行时YAML的supportedModelFormats字段中找到。对于使用KServe推理运行时的模型框架，具体的默认版本可以在kserve/python中找到。在给定的推理运行时目录中，pyproject.toml文件包含了使用的确切模型框架版本。例如，在kserve/python/lgbserver中，pyproject.toml文件将模型框架版本设置为3.3.2，lightgbm ~= 3.3.2。

Model Serving Runtime	Exported model	HTTP	gRPC	Default Serving Runtime Version	Supported Framework (Major) Version(s)	Examples
Custom ModelServer	--	v1, v2	v2	--	--	Custom Model
LightGBM ModelServer	Saved LightGBM Model	v1, v2	v2	v0.15.0 (KServe)	4	LightGBM Iris
MLFlow ModelServer	Saved MLFlow Model	v2	v2	v1.5.0 (MLServer)	2	MLFLow wine-classifier
PMML ModelServer	PMML	v1, v2	v2	v0.15.0 (KServe)	3, 4 (PMML4.4.1)	SKLearn PMML
SKLearn ModelServer	Pickled Model	v1, v2	v2	v0.15.0 (KServe)	1.5	SKLearn Iris
TFServing	TensorFlow SavedModel	v1	*tensorflow	2.6.2 (TFServing Versions)	2	TensorFlow flower
TorchServe	Eager Model/TorchScript	v1, v2, *torchserve	*torchserve	0.9.0 (TorchServe)	2	TorchServe mnist
Triton Inference Server	TensorFlow,TorchScript,ONNX	v2	v2	23.05-py3 (Triton)	8 (TensoRT), 1, 2 (TensorFlow), 2 (PyTorch), 2 (Triton) Compatibility Matrix	Torchscript cifar
XGBoost ModelServer	Saved Model	v1, v2	v2	v0.15.0 (KServe)	2	XGBoost Iris
HuggingFace ModelServer	Saved Model / Huggingface Hub Model_Id	v1, v2, OpenAI	--	v0.15.0 (KServe)	4 (Transformers)	--
HuggingFace VLLM ModelServer	Saved Model / Huggingface Hub Model_Id	v2, OpenAI	--	v0.15.0 (KServe)	0 (Vllm)	--

tensorflow - Tensorflow除了支持KServe的预测协议外，还实现了自己的预测协议。参见：Tensorflow Serving预测API文档

torchserve - PyTorch除了支持KServe的预测协议外，还实现了自己的预测协议。参见：Torchserve gRPC API文档

📔

可以使用 InferenceService yaml 中的 runtimeVersion 字段来覆盖模型服务运行时版本，我们强烈建议在生产服务中设置此字段。

LL推理运行时 - 多节点推理

模型推理运行时-Tensorflow