LLM 推理运行时 - 填充蒙版
type
status
date
slug
summary
tags
category
icon
password
网址
在本示例中,我们演示如何通过部署带有Hugging Face服务运行时的
InferenceService
来部署用于填充掩码任务的BERT model
。使用V1协议部署Hugging Face LLM模型
首先,我们将使用V1协议的Hugging Face后端部署
BERT model
。Yaml
检查InferenceService
状态。
预期输出
执行模型推理
第一步是确定入口IP和端口并设置
INGRESS_HOST
和INGRESS_PORT
。预期输出
使用开放推理协议(V2协议)部署Hugging Face LLM模型
首先,我们将使用开放推理协议(V2协议)的Hugging Face后端部署
BERT model
。为此,我们需要将protocolVersion
字段设置为v2
。Yaml
检查InferenceService
状态。
预期输出
执行模型推理
第一步是确定入口IP和端口并设置
INGRESS_HOST
和INGRESS_PORT
。预期输出
上一篇
LLM推理运行时 - 文本分类
下一篇
LL推理运行时 - 多节点推理
Loading...