vLLM：高效能 LLM 推論與服務引擎

模型服務

vLLM 是一個開源框架，專為大型語言模型提供快速、記憶體高效的推論和服務，支援多種硬體和模型架構。

此 GitHub 開源專案 vLLM 是一個高效能的大型語言模型（LLM）推論與服務引擎，源自加州大學柏克萊分校，現已發展為由全球超過 2000 名貢獻者維護的活躍專案。專案透過 PagedAttention 等先進技術實現高吞吐量和記憶體效率，支援連續批次、量化（如 FP8、INT8）、多種注意力優化（如 FlashAttention）以及分散式推論。它無縫整合 Hugging Face 模型，並提供 OpenAI 兼容的 API 伺服器，適用於部署各種 LLM 應用，包括解碼器模型、專家混合模型和多模態模型。專案旨在讓每個人都能輕鬆、快速且低成本地部署 LLM 服務。

Repovllm-project/vllm

Stars⭐ 82,843

Forks18,045

語言Python

分類模型服務

標籤

GitHub Topics