LLM推理运行时 - 文本生成

type
status
date
slug
summary
tags
category
icon
password
网址
在本示例中,我们演示如何通过部署带有Llama3 modelInferenceService来从Hugging Face部署文本生成任务,具体使用Hugging Face服务运行时。

使用vLLM后端服务部署Hugging Face LLM模型

KServe Hugging Face运行时默认使用vLLM来服务LLM模型,以实现比Hugging Face API更快的首次生成令牌时间(TTFT)和更高的令牌生成吞吐量。vLLM采用了常见的推理优化技术,如分页注意力、连续批处理和优化的CUDA内核。如果模型不受vLLM支持,KServe会回退到HuggingFace后端作为备选方案。
注意
Llama3模型需要huggingface hub令牌才能下载模型。您可以使用HF_TOKEN环境变量来设置令牌。
创建一个包含Hugging Face令牌的密钥。
Yaml
然后创建推理服务。
Yaml

检查InferenceService状态。

预期输出

执行模型推理

第一步是确定入口IP和端口并设置INGRESS_HOSTINGRESS_PORT
KServe Hugging Face vLLM运行时支持OpenAI的/v1/completions/v1/chat/completions端点进行推理

OpenAI Completions请求示例:

预期输出

OpenAI Chat请求示例:

预期输出

OpenAI Chat Completions流式请求示例:

注意
输出已为简洁起见做了截断。
预期输出

使用HuggingFace后端服务部署Hugging Face LLM模型

您可以使用--backend=huggingface参数来通过Hugging Face API执行推理。KServe Hugging Face后端运行时同样支持OpenAI的/v1/completions/v1/chat/completions端点进行推理。
注意
Llama3模型需要huggingface hub令牌才能下载模型。您可以使用HF_TOKEN环境变量来设置令牌。
创建一个包含Hugging Face令牌的密钥。
Yaml
然后创建推理服务。
Yaml

检查InferenceService状态。

预期输出

执行模型推理

第一步是确定入口IP和端口并设置INGRESS_HOSTINGRESS_PORT

OpenAI Completions请求示例:

预期输出

OpenAI Chat Completions请求示例:

预期输出

OpenAI Completions流式请求示例:

注意
输出已为简洁起见做了截断。
预期输出
上一篇
LLM推理运行时 - 概览
下一篇
LLM推理运行时 - 文生文
Loading...
文章列表
Kserve中文文档
快速开始
管理指南
用户指南
开发指南
机器学习概念
大模型周报