模型推理运行时 - 概要

type
status
date
slug
summary
tags
category
icon
password
网址
KServe提供了一个简单的Kubernetes CRD,可以将单个或多个训练好的模型部署到模型推理运行时上,如TFServingTorchServeTriton推理服务器。对于Hugging Face模型,KServe提供Hugging Face服务器来托管基于transformer的模型,支持开放推理和OpenAI协议。此外,ModelServer是KServe自身实现的Python模型推理运行时,支持v1预测和开放推理协议(v2)。这些模型推理运行时能够提供开箱即用的模型服务,但您也可以选择为更复杂的用例构建自己的模型服务器。KServe提供基本的API原语,让您能够轻松构建自定义模型推理运行时,您可以使用BentoML等工具来构建自定义模型服务镜像。
使用InferenceService部署模型后,您可以获得KServe提供的以下所有serverless功能。
  • 弹性伸缩到零和从零扩展
  • 基于CPU/GPU的请求自动扩缩
  • 版本管理
  • 优化的容器
  • 批处理
  • 请求/响应日志记录
  • 流量管理
  • 身份认证/授权的安全机制
  • 分布式追踪
  • 开箱即用的指标
  • 入站/出站控制
下表列出了KServe支持的每种模型推理运行时。HTTP和gRPC列表示推理运行时支持的预测协议版本。KServe预测协议标注为"v1"或"v2"。某些推理运行时还支持自己的预测协议,这些用*标注。默认推理运行时版本列定义了推理运行时的来源和版本 - MLServer、KServe或其自身。这些版本也可以在运行时kustomization YAML中找到。所有KServe原生模型推理运行时都使用当前的KServe发布版本(v0.12)。支持的框架版本列列出了支持的模型的主要版本。这些也可以在相应的运行时YAMLsupportedModelFormats字段中找到。对于使用KServe推理运行时的模型框架,具体的默认版本可以在kserve/python中找到。在给定的推理运行时目录中,pyproject.toml文件包含了使用的确切模型框架版本。例如,在kserve/python/lgbserver中,pyproject.toml文件将模型框架版本设置为3.3.2,lightgbm ~= 3.3.2
Model Serving Runtime
Exported model
HTTP
gRPC
Default Serving Runtime Version
Supported Framework (Major) Version(s)
Examples
--
v1, v2
v2
--
--
v1, v2
v2
v0.15.0 (KServe)
4
v2
v2
v1.5.0 (MLServer)
2
v1, v2
v2
v0.15.0 (KServe)
3, 4 (PMML4.4.1)
v1, v2
v2
v0.15.0 (KServe)
1.5
v1
*tensorflow
2
v1, v2, *torchserve
*torchserve
0.9.0 (TorchServe)
2
v2
v2
23.05-py3 (Triton)
8 (TensoRT), 1, 2 (TensorFlow), 2 (PyTorch), 2 (Triton) Compatibility Matrix
v1, v2
v2
v0.15.0 (KServe)
2
v1, v2, OpenAI
--
v0.15.0 (KServe)
--
v2, OpenAI
--
v0.15.0 (KServe)
0 (Vllm)
--
  • tensorflow - Tensorflow除了支持KServe的预测协议外,还实现了自己的预测协议。参见:Tensorflow Serving预测API文档
  • torchserve - PyTorch除了支持KServe的预测协议外,还实现了自己的预测协议。参见:Torchserve gRPC API文档
 
📔
可以使用 InferenceService yaml 中的 runtimeVersion 字段来覆盖模型服务运行时版本,我们强烈建议在生产服务中设置此字段。
上一篇
LL推理运行时 - 多节点推理
下一篇
模型推理运行时-Tensorflow
Loading...
目录
文章列表
Kserve中文文档
快速开始
管理指南
用户指南
开发指南
机器学习概念
大模型周报