LLM推理运行时 - 文本生成
type
status
date
slug
summary
tags
category
icon
password
网址
在本示例中,我们演示如何通过部署带有
Llama3 model
的InferenceService
来从Hugging Face部署文本生成任务,具体使用Hugging Face服务运行时。使用vLLM后端服务部署Hugging Face LLM模型
KServe Hugging Face运行时默认使用vLLM来服务LLM模型,以实现比Hugging Face API更快的首次生成令牌时间(TTFT)和更高的令牌生成吞吐量。vLLM采用了常见的推理优化技术,如分页注意力、连续批处理和优化的CUDA内核。如果模型不受vLLM支持,KServe会回退到HuggingFace后端作为备选方案。
注意
Llama3模型需要huggingface hub令牌才能下载模型。您可以使用
HF_TOKEN
环境变量来设置令牌。创建一个包含Hugging Face令牌的密钥。
Yaml
然后创建推理服务。
Yaml
检查InferenceService
状态。
预期输出
执行模型推理
第一步是确定入口IP和端口并设置
INGRESS_HOST
和INGRESS_PORT
。KServe Hugging Face vLLM运行时支持OpenAI的
/v1/completions
和/v1/chat/completions
端点进行推理OpenAI Completions请求示例:
预期输出
OpenAI Chat请求示例:
预期输出
OpenAI Chat Completions流式请求示例:
注意
输出已为简洁起见做了截断。
预期输出
使用HuggingFace后端服务部署Hugging Face LLM模型
您可以使用
--backend=huggingface
参数来通过Hugging Face API执行推理。KServe Hugging Face后端运行时同样支持OpenAI的/v1/completions
和/v1/chat/completions
端点进行推理。注意
Llama3模型需要huggingface hub令牌才能下载模型。您可以使用
HF_TOKEN
环境变量来设置令牌。创建一个包含Hugging Face令牌的密钥。
Yaml
然后创建推理服务。
Yaml
检查InferenceService
状态。
预期输出
执行模型推理
第一步是确定入口IP和端口并设置
INGRESS_HOST
和INGRESS_PORT
。OpenAI Completions请求示例:
预期输出
OpenAI Chat Completions请求示例:
预期输出
OpenAI Completions流式请求示例:
注意
输出已为简洁起见做了截断。
预期输出
上一篇
LLM推理运行时 - 概览
下一篇
LLM推理运行时 - 文生文
Loading...