LLM推理运行时 - 文生文

type
status
date
slug
summary
tags
category
icon
password
网址

使用 Hugging Face LLM 服务运行时部署 t5 模型用于文本生成任务

在本示例中,我们演示如何通过部署带有 Hugging Face 服务运行时的 InferenceService 来从 Hugging Face 部署 t5 模型用于文本生成任务。

使用 HuggingFace 后端服务部署 Hugging Face LLM 模型

KServe Hugging Face 运行时默认使用 vLLM 来服务 LLM 模型,以实现比 Hugging Face API 更快的首字生成时间(TTFT)和更高的字符生成吞吐量。vLLM 采用了常见的推理优化技术,如分页注意力、连续批处理和优化的 CUDA 内核。如果 vLLM 不支持某个模型,KServe 会自动切换到 HuggingFace 后端作为备选方案。
您可以使用 --backend=huggingface 参数通过 Hugging Face API 执行推理。KServe Hugging Face 后端运行时还支持 OpenAI 的 /v1/completions/v1/chat/completions 端点进行推理。
注意
在编写本文档时,vLLM 引擎不支持 t5 模型,因此运行时将自动使用 Hugging Face 后端来服务模型。
Yaml

检查 InferenceService 状态

预期输出

执行模型推理

第一步是确定入口 IP 和端口并设置 INGRESS_HOSTINGRESS_PORT
SERVICE_HOSTNAME=$(kubectl get inferenceservice huggingface-t5 -o jsonpath='{.status.url}' | cut -d "/" -f 3)

OpenAI Completions 请求示例:

预期输出

OpenAI Completions 流式请求示例:

预期输出
上一篇
LLM推理运行时 - 文本生成
下一篇
LLM推理运行时 - token分类
Loading...
文章列表
Kserve中文文档
快速开始
管理指南
用户指南
开发指南
机器学习概念
大模型周报