vLLM:高效能 LLM 推論與服務引擎
模型服務vLLM 是一個開源框架,專為大型語言模型提供快速、記憶體高效的推論和服務,支援多種硬體和模型架構。
此 GitHub 開源專案 vLLM 是一個高效能的大型語言模型(LLM)推論與服務引擎,源自加州大學柏克萊分校,現已發展為由全球超過 2000 名貢獻者維護的活躍專案。專案透過 PagedAttention 等先進技術實現高吞吐量和記憶體效率,支援連續批次、量化(如 FP8、INT8)、多種注意力優化(如 FlashAttention)以及分散式推論。它無縫整合 Hugging Face 模型,並提供 OpenAI 兼容的 API 伺服器,適用於部署各種 LLM 應用,包括解碼器模型、專家混合模型和多模態模型。專案旨在讓每個人都能輕鬆、快速且低成本地部署 LLM 服務。