Ctrl+K

Kserve中文文档

快速开始

KServe快速开始

第一个推理服务

与推理服务（InferenceService）的 Swagger 用户界面进行交互

管理指南

安装指南 - Serverless 安装

Istio Service Mesh

AI 网关集成

使用替代网络层部署推理服务（InferenceService）

ModelMesh 安装

Kubernetes deployment 安装

网关API 迁移

用户指南

概念-控制面板

概念-数据面板-开放推理协议扩展

概念-数据面板 - 推理面板

概念-数据面板-推理协议

概念-数据面板-开放推理协议V2

概念 - 推理运行时

LLM推理运行时 - 概览

LLM推理运行时 - 文本生成

LLM推理运行时 - 文生文

LLM推理运行时 - token分类

LLM推理运行时 - 文本分类

LLM 推理运行时 - 填充蒙版

LL推理运行时 - 多节点推理

模型推理运行时 - 概要

模型推理运行时-Tensorflow

模型推理运行时 - PyTorch

模型推理运行时-Scikit-learn

模型推理运行时-XGBoost

模型推理运行时-PMML

模型推理运行时-SparkMLlib

模型推理运行时 - Light GBM

模型推理运行时-Paddle

模型推理运行时-MLFlow

模型推理运行时-ONNX

模型推理运行时-AMD

模型推理运行时-Triton-Torchscript

模型推理运行时-Triton-Tensorflow

模型推理运行时-Triton-HuggingFace

如何写一个自定义推理服务

多模型服务 - 可扩展性问题

多模型服务- ModelMesh 概览

Transformer-Feast

自定义Transformer推理

Transformer和Predictor的协同部署

推理图-概念

推理图-图像识别示例

模型存储 - 存储容器

模型存储 - CA证书配置

模型存储-使用AzureBlob

模型存储 - PVC

模型存储-S3

模型存储－OCI

模型存储-URI

模型存储 - GCS

模型存储 - Hugging Face

模型存储 - 模型缓存

开发指南

如何贡献代码

机器学习概念

单位归一化

大模型周报

大模型周报2025-04-24

大模型周报2025-05-03

LLM推理运行时 - 文本生成

type

status

date

slug

summary

tags

category

icon

password

网址

在本示例中，我们演示如何通过部署带有Llama3 model的InferenceService来从Hugging Face部署文本生成任务，具体使用Hugging Face服务运行时。

使用vLLM后端服务部署Hugging Face LLM模型

KServe Hugging Face运行时默认使用vLLM来服务LLM模型，以实现比Hugging Face API更快的首次生成令牌时间(TTFT)和更高的令牌生成吞吐量。vLLM采用了常见的推理优化技术，如分页注意力、连续批处理和优化的CUDA内核。如果模型不受vLLM支持，KServe会回退到HuggingFace后端作为备选方案。

注意

Llama3模型需要huggingface hub令牌才能下载模型。您可以使用HF_TOKEN环境变量来设置令牌。

创建一个包含Hugging Face令牌的密钥。

Yaml

然后创建推理服务。

Yaml

检查`InferenceService`状态。

预期输出

执行模型推理

第一步是确定入口IP和端口并设置INGRESS_HOST和INGRESS_PORT。

KServe Hugging Face vLLM运行时支持OpenAI的/v1/completions和/v1/chat/completions端点进行推理

OpenAI Completions请求示例：

预期输出

OpenAI Chat请求示例：

预期输出

OpenAI Chat Completions流式请求示例：

注意

输出已为简洁起见做了截断。

预期输出

使用HuggingFace后端服务部署Hugging Face LLM模型

您可以使用--backend=huggingface参数来通过Hugging Face API执行推理。KServe Hugging Face后端运行时同样支持OpenAI的/v1/completions和/v1/chat/completions端点进行推理。

注意

Llama3模型需要huggingface hub令牌才能下载模型。您可以使用HF_TOKEN环境变量来设置令牌。

创建一个包含Hugging Face令牌的密钥。

Yaml

然后创建推理服务。

Yaml

检查`InferenceService`状态。

预期输出

执行模型推理

第一步是确定入口IP和端口并设置INGRESS_HOST和INGRESS_PORT。

OpenAI Completions请求示例：

预期输出

OpenAI Chat Completions请求示例：

预期输出

OpenAI Completions流式请求示例：

注意

输出已为简洁起见做了截断。

预期输出

LLM推理运行时 - 概览

LLM推理运行时 - 文生文

Loading...

目录

Last update: 2025-04-16

👏欢迎阅读👏

文章列表

Kserve中文文档

快速开始

KServe快速开始

第一个推理服务

与推理服务（InferenceService）的 Swagger 用户界面进行交互

管理指南

安装指南 - Serverless 安装

Istio Service Mesh

AI 网关集成

使用替代网络层部署推理服务（InferenceService）

ModelMesh 安装

Kubernetes deployment 安装

网关API 迁移

用户指南

概念-控制面板

概念-数据面板-开放推理协议扩展

概念-数据面板 - 推理面板

概念-数据面板-推理协议

概念-数据面板-开放推理协议V2

概念 - 推理运行时

LLM推理运行时 - 概览

LLM推理运行时 - 文本生成

LLM推理运行时 - 文生文

LLM推理运行时 - token分类

LLM推理运行时 - 文本分类

LLM 推理运行时 - 填充蒙版

LL推理运行时 - 多节点推理

模型推理运行时 - 概要

模型推理运行时-Tensorflow

模型推理运行时 - PyTorch

模型推理运行时-Scikit-learn

模型推理运行时-XGBoost

模型推理运行时-PMML

模型推理运行时-SparkMLlib

模型推理运行时 - Light GBM

模型推理运行时-Paddle

模型推理运行时-MLFlow

模型推理运行时-ONNX

模型推理运行时-AMD

模型推理运行时-Triton-Torchscript

模型推理运行时-Triton-Tensorflow

模型推理运行时-Triton-HuggingFace

如何写一个自定义推理服务

多模型服务 - 可扩展性问题

多模型服务- ModelMesh 概览

Transformer-Feast

自定义Transformer推理

Transformer和Predictor的协同部署

推理图-概念

推理图-图像识别示例

模型存储 - 存储容器

模型存储 - CA证书配置

模型存储-使用AzureBlob

模型存储 - PVC

模型存储-S3

模型存储－OCI

模型存储-URI

模型存储 - GCS

模型存储 - Hugging Face

模型存储 - 模型缓存

开发指南

如何贡献代码

机器学习概念

单位归一化

大模型周报

大模型周报2025-04-24

大模型周报2025-05-03