LLM推理运行时 - 文生文
type
status
date
slug
summary
tags
category
icon
password
网址
使用 Hugging Face LLM 服务运行时部署 t5 模型用于文本生成任务¶
在本示例中,我们演示如何通过部署带有 Hugging Face 服务运行时的
InferenceService
来从 Hugging Face 部署 t5 模型
用于文本生成任务。使用 HuggingFace 后端服务部署 Hugging Face LLM 模型¶
KServe Hugging Face 运行时默认使用 vLLM 来服务 LLM 模型,以实现比 Hugging Face API 更快的首字生成时间(TTFT)和更高的字符生成吞吐量。vLLM 采用了常见的推理优化技术,如分页注意力、连续批处理和优化的 CUDA 内核。如果 vLLM 不支持某个模型,KServe 会自动切换到 HuggingFace 后端作为备选方案。
您可以使用
--backend=huggingface
参数通过 Hugging Face API 执行推理。KServe Hugging Face 后端运行时还支持 OpenAI 的 /v1/completions
和 /v1/chat/completions
端点进行推理。注意
在编写本文档时,vLLM 引擎不支持
t5 模型
,因此运行时将自动使用 Hugging Face 后端来服务模型。Yaml
检查 InferenceService
状态¶
预期输出
执行模型推理¶
SERVICE_HOSTNAME=$(kubectl get inferenceservice huggingface-t5 -o jsonpath='{.status.url}' | cut -d "/" -f 3)
OpenAI Completions 请求示例:¶
预期输出
OpenAI Completions 流式请求示例:¶
预期输出
上一篇
LLM推理运行时 - 文本生成
下一篇
LLM推理运行时 - token分类
Loading...