概念-数据面板 - 推理面板

type
status
date
slug
summary
tags
category
icon
password
网址
InferenceService数据面架构由一个静态组件图构成,这些组件协调单个模型的请求。高级功能(如集成、A/B测试和多臂老虎机)应当将多个InferenceService组合在一起。
KServe的数据面协议引入了一个独立于任何特定机器学习/深度学习框架和模型服务器的推理API。这使得推理服务能够快速迭代并保持一致性,同时支持易用性和高性能的使用场景。
通过实现这个协议,推理客户端和服务器都能在已经标准化采用这个API的平台上无缝运行,从而提高其实用性和可移植性。KServe的推理协议得到了NVIDIA Triton推理服务器、TensorFlow Serving和TorchServe的认可。
notion image
注意:V2协议使用/infer替代:predict

概念

组件:每个端点由多个组件组成:"预测器"、"解释器"和"转换器"。预测器是唯一必需的组件,是系统的核心。随着KServe的发展,我们计划增加支持的组件数量,以实现异常检测等用例。
预测器:预测器是InferenceService的主力。它本质上是一个模型和一个使其在网络端点可用的模型服务器。
解释器:解释器启用一个可选的替代数据面,除了预测之外还提供模型解释。用户可以定义自己的解释容器,该容器通过预测端点等相关环境变量进行配置。对于常见用例,KServe提供现成的解释器,如Alibi。
转换器:转换器使用户能够在预测和解释工作流之前定义预处理和后处理步骤。与解释器一样,它也通过相关环境变量进行配置。对于常见用例,KServe提供现成的转换器,如Feast。

数据面 V1 & V2

KServe支持两个版本的数据面,V1和V2。V1协议通过HTTP/REST提供标准预测工作流。数据面协议的第二个版本解决了V1数据面协议中发现的几个问题,包括性能和在大量模型框架和服务器中的通用性。V2协议通过添加gRPC API扩展了V1的功能。

主要变更

  • V2当前不支持解释端点
  • V2添加了服务器就绪性/存活性/元数据端点
  • V2端点路径包含/而不是:
  • V2将:predict端点重命名为/infer
  • V2允许在请求路径中包含模型版本(可选)

V1 APIs

API
方法
路径
列出模型
GET
/v1/models
模型就绪
GET
/v1/models/<model_name>
预测
POST
/v1/models/<model_name>:predict
解释
POST
/v1/models/<model_name>:explain

V2 APIs

  • []中的路径内容为可选
请参阅V1协议V2协议文档以获取更多信息。
 
上一篇
概念-数据面板-开放推理协议扩展
下一篇
概念-数据面板-推理协议
Loading...
文章列表
Kserve中文文档
快速开始
管理指南
用户指南
开发指南
机器学习概念
大模型周报