模型推理运行时-PMML

type

status

date

slug

summary

新架构旧架构

使用上述yaml创建推理服务

预期输出

警告

pmmlserver基于Py4J，且不支持多进程模式，因此我们无法设置spec.predictor.containerConcurrency。如果您想要扩展PMMLServer以提高预测性能，您应该将推理服务的resources.limits.cpu设置为1并扩展副本数量。

第一步是确定入口IP和端口并设置INGRESS_HOST和INGRESS_PORT。

您可以在下面看到示例负载。使用示例输入创建一个名为iris-input.json的文件。

一旦您获得了序列化的model.pmml，我们就可以使用KServe Pmml Server来启动本地服务器。

首先，要在本地使用KServe pmml服务器，您需要在本地环境中安装pmmlserver运行时包。

pmmlserver包接受两个参数。

在本地安装pmmlserver运行时包后，您现在应该可以启动我们的服务器了：

最后，您将使用KServe将训练好的模型部署到Kubernetes上。为此，您只需要使用InferenceService CRD的版本v1beta1，并将protocolVersion字段设置为v2。

您现在可以通过发送示例请求来测试您部署的模型。

请注意，此请求需要遵循开放推理协议。您可以在下面看到示例负载。使用示例输入创建一个名为iris-input-v2.json的文件。

确定入口IP和端口并设置INGRESS_HOST和INGRESS_PORT。现在，您可以使用curl发送推理请求：

使用以下yaml创建推理服务资源并暴露gRPC端口。

应用推理服务yaml以获取gRPC端点

在gRPC InferenceService准备就绪后，可以使用grpcurl向InferenceService发送gRPC请求。

确定入口IP和端口并设置INGRESS_HOST和INGRESS_PORT。现在，您可以使用curl发送推理请求。gRPC API遵循KServe 预测V2协议/开放推理协议。例如，可以使用ServerReady API检查服务器是否就绪：

您可以通过发送带有以下负载的示例请求来测试已部署的模型。请注意，输入格式与之前的REST端点示例不同。在名为iris-input-v2-grpc.json的文件中准备推理输入。

ModelInfer API采用遵循grpc_predict_v2.proto文件中定义的ModelInferRequest架构的输入。