config.pbtxt定义了提供模型所需和可选信息的配置。最基本的模型配置必须指定名称、平台、最大批处理大小、输入和输出。由于TorchScript模型中输入和输出没有名称，配置中输入和输出的name属性必须遵循特定的命名约定，即"__"。其中可以是任何字符串，指的是相应输入/输出的位置。这意味着如果有两个输入和两个输出，它们必须命名为：INPUT__0、INPUT__1和OUTPUT__0、OUTPUT__1，其中INPUT__0指第一个输入，INPUT__1指第二个输入，以此类推。

instance_group提供模型的多个实例，以便可以同时处理该模型的多个推理请求。

要在GPU上调度模型，您需要将instance_group更改为GPU类型

更多详细信息，请参考triton模型配置。

使用HTTP端点进行推理

创建推理服务

使用上述指定的模型仓库URI创建推理服务yaml。

警告

设置OMP_NUM_THREADS或MKL_NUM_THREADS环境变量对性能至关重要，这些环境变量用于控制TorchScript模型推理的内部运算并行度，CPU线程数默认为CPU核心数。请参考CPU线程处理和TorchScript推理了解更多详情。

kubectl

预期输出

使用curl进行预测

第一步是确定入口IP和端口并设置INGRESS_HOST和INGRESS_PORT

最新的Triton推理服务器已切换到使用KServe预测V2协议，因此输入请求需要遵循V2模式，并指定数据类型和形状。

预期输出

运行性能测试

QPS速率--rate可以在perf.yaml中进行修改。

使用gRPC端点进行推理

创建推理服务

创建推理服务yaml并暴露gRPC端口，目前只允许暴露一个端口，可以是HTTP或gRPC端口，默认暴露HTTP端口。

应用gRPC InferenceService yaml后，当InferenceService就绪时，您就可以使用tritonclient Python库调用模型。

使用grpcurl进行预测

在gRPC InferenceService就绪后，可以使用grpcurl向InferenceService发送gRPC请求。

gRPC API遵循KServe预测V2协议。

例如，可以使用ServerReady API检查服务器是否就绪：

预期输出

ModelInfer API接受遵循grpc_predict_v2.proto文件中定义的ModelInferRequest架构的输入。注意，这个输入文件与之前curl示例中使用的不同。

预期输出

输出张量的内容被编码在rawOutputContents字段中。它可以被base64解码并根据给定的数据类型和形状加载到Numpy数组中。

另外，Triton还提供了Python客户端库，其中包含许多示例，展示了如何与KServe V2 gRPC协议进行交互。

为推理服务添加转换器

Triton Inference Server需要张量作为输入数据，当用户发送原始格式的请求时，在进行预测调用之前通常需要预处理步骤。转换器组件可以在推理服务规范中指定，用于用户实现的预处理/后处理代码。用户负责创建一个继承自KServe Model基类的Python类，该类实现preprocess处理程序，将原始输入格式根据V2预测协议转换为张量格式，postprocess处理程序用于将原始预测响应转换为更友好的响应格式。

实现预处理/后处理函数

image_transformer_v2.py

请在此处查看代码示例和Dockerfile。

构建转换器Docker镜像

创建带有转换器的推理服务

请使用YAML文件创建推理服务，该文件添加了使用上述构建的Docker镜像的图像转换器组件。

预期输出

使用curl进行预测

转换器不像预测器那样强制执行特定的模式，但一般建议以对象列表（字典）的形式发送："instances": <value>|<list-of-objects>

预期输出

模型推理运行时-AMD

模型推理运行时-Triton-Tensorflow

Last update: 2025-04-18

👏欢迎阅读👏