What is VLLM?

vLLM 是一款快速、灵活且易于使用的大语言模型 (LLM) 推理和服务库。它提供一流的服务吞吐量、对注意力键值存储的有效管理，并支持广泛流行的 Hugging Face 模型，包括 Aquila、Baichuan、BLOOM、ChatGLM、GPT-2、GPT-J、LLaMA 及其他众多模型。

高性能：vLLM 专为快速高效的 LLM 推理而设计，拥有如连续批量处理传入请求、CUDA/HIP 图形执行和优化的 CUDA 内核等特性。
灵活且易于使用：vLLM 与流行的 Hugging Face 模型无缝集成，支持各种解码算法（并行采样、波束搜索等），并为分布式推理提供张量并行性。它还提供与 OpenAI 兼容的 API 服务器和流式输出功能。
全面的模型支持：vLLM 支持广泛的 LLM 架构，包括 Aquila、Baichuan、BLOOM、ChatGLM、GPT-2、GPT-J、LLaMA 及更多架构。它还包括前缀缓存和多 LoRA 支持等实验性功能。

vLLM 是面向开发人员、研究人员和组织的强大工具，他们希望快速、高效且灵活地部署和服务大型语言模型。它可用于各种应用程序，例如：

vLLM 是一款尖端的库，它简化了大型语言模型的部署和服务，提供了无与伦比的性能、灵活性以及模型支持。无论您是希望利用 LLM 的能力的开发人员、研究人员还是组织，vLLM 都提供了一个稳健且用户友好的解决方案来满足您的需求。

More information on VLLM

Launched

Pricing Model

Free

Starting Price

Global Rank

Month Visit

<5k

Tech used

VLLM was manually vetted by our editorial team and was first featured on 2024-04-29.

更多替代方案