LLM推理运行时 - token分类

type
status
date
slug
summary
tags
category
icon
password
网址

使用 Hugging Face LLM 服务运行时部署用于标记分类任务的 BERT 模型

在本例中,我们将演示如何使用 Hugging Face 服务运行时部署 BERT model 用于标记分类任务,方法是部署带有 Hugging Face 服务运行时的 InferenceService

使用 V1 协议部署 Hugging Face LLM 模型

首先,我们将使用 V1 协议通过 Hugging Face 后端部署 BERT model

检查 InferenceService 状态

kubectl get inferenceservices huggingface-bert
预期输出

执行模型推理

第一步是确定入口 IP 和端口并设置 INGRESS_HOSTINGRESS_PORT
预期输出

使用开放推理协议(V2 协议)部署 Hugging Face LLM 模型

首先,我们将使用开放推理协议(V2 协议)通过 Hugging Face 后端部署 BERT model。为此,我们需要将 protocolVersion 字段设置为 v2

检查 InferenceService 状态

预期输出

执行模型推理

第一步是确定入口 IP 和端口并设置 INGRESS_HOSTINGRESS_PORT
预期输出
上一篇
LLM推理运行时 - 文生文
下一篇
LLM推理运行时 - 文本分类
Loading...
文章列表
Kserve中文文档
快速开始
管理指南
用户指南
开发指南
机器学习概念
大模型周报