模型推理运行时 - 概要
type
status
date
slug
summary
tags
category
icon
password
网址
KServe提供了一个简单的Kubernetes CRD,可以将单个或多个训练好的模型部署到模型推理运行时上,如TFServing、TorchServe、Triton推理服务器。对于Hugging Face模型,KServe提供Hugging Face服务器来托管基于transformer的模型,支持开放推理和OpenAI协议。此外,ModelServer是KServe自身实现的Python模型推理运行时,支持v1预测和开放推理协议(v2)。这些模型推理运行时能够提供开箱即用的模型服务,但您也可以选择为更复杂的用例构建自己的模型服务器。KServe提供基本的API原语,让您能够轻松构建自定义模型推理运行时,您可以使用BentoML等工具来构建自定义模型服务镜像。
使用InferenceService部署模型后,您可以获得KServe提供的以下所有serverless功能。
- 弹性伸缩到零和从零扩展
- 基于CPU/GPU的请求自动扩缩
- 版本管理
- 优化的容器
- 批处理
- 请求/响应日志记录
- 流量管理
- 身份认证/授权的安全机制
- 分布式追踪
- 开箱即用的指标
- 入站/出站控制
下表列出了KServe支持的每种模型推理运行时。HTTP和gRPC列表示推理运行时支持的预测协议版本。KServe预测协议标注为"v1"或"v2"。某些推理运行时还支持自己的预测协议,这些用
*
标注。默认推理运行时版本列定义了推理运行时的来源和版本 - MLServer、KServe或其自身。这些版本也可以在运行时kustomization YAML中找到。所有KServe原生模型推理运行时都使用当前的KServe发布版本(v0.12)。支持的框架版本列列出了支持的模型的主要版本。这些也可以在相应的运行时YAML的supportedModelFormats
字段中找到。对于使用KServe推理运行时的模型框架,具体的默认版本可以在kserve/python中找到。在给定的推理运行时目录中,pyproject.toml文件包含了使用的确切模型框架版本。例如,在kserve/python/lgbserver中,pyproject.toml文件将模型框架版本设置为3.3.2,lightgbm ~= 3.3.2
。Model Serving Runtime | Exported model | HTTP | gRPC | Default Serving Runtime Version | Supported Framework (Major) Version(s) | Examples |
-- | v1, v2 | v2 | -- | -- | ||
v1, v2 | v2 | v0.15.0 (KServe) | 4 | |||
v2 | v2 | v1.5.0 (MLServer) | 2 | |||
v1, v2 | v2 | v0.15.0 (KServe) | 3, 4 (PMML4.4.1) | |||
v1, v2 | v2 | v0.15.0 (KServe) | 1.5 | |||
v1 | *tensorflow | 2.6.2 (TFServing Versions) | 2 | |||
v1, v2, *torchserve | *torchserve | 0.9.0 (TorchServe) | 2 | |||
v2 | v2 | 23.05-py3 (Triton) | 8 (TensoRT), 1, 2 (TensorFlow), 2 (PyTorch), 2 (Triton) Compatibility Matrix | |||
v1, v2 | v2 | v0.15.0 (KServe) | 2 | |||
v1, v2, OpenAI | -- | v0.15.0 (KServe) | 4 (Transformers) | -- | ||
v2, OpenAI | -- | v0.15.0 (KServe) | 0 (Vllm) | -- |
- tensorflow - Tensorflow除了支持KServe的预测协议外,还实现了自己的预测协议。参见:Tensorflow Serving预测API文档
- torchserve - PyTorch除了支持KServe的预测协议外,还实现了自己的预测协议。参见:Torchserve gRPC API文档
可以使用 InferenceService yaml 中的
runtimeVersion
字段来覆盖模型服务运行时版本,我们强烈建议在生产服务中设置此字段。上一篇
LL推理运行时 - 多节点推理
下一篇
模型推理运行时-Tensorflow
Loading...