高效能大型語言模型與多模態模型服務框架

模型服務

SGLang 為大型語言模型及多模態模型提供高效能服務框架，支援快速推理與最佳化部署，適用於高吞吐量應用場景。

此 GitHub 開源專案 SGLang 是一個高效能服務框架，專為大型語言模型（LLM）和多模態模型設計。它提供快速的推理與部署功能，支援多種模型架構如 Llama、Qwen、DeepSeek 等，並在 NVIDIA 最新硬體（如 GB300 NVL72）上實現了顯著的性能提升，例如 25 倍推理效能。專案還包括對擴散模型的加速，適用於視訊和圖像生成。根據 README 說明，SGLang 已獲得 a16z 的開源 AI 資助，並被廣泛用於高吞吐量的模型服務場景。框架支援多種硬體平台，包括 CUDA 和 TPU，提供詳細的文檔和社群支援，適合 AI 開發者、研究人員和企業級部署需求。

Reposgl-project/sglang

Stars⭐ 28,991

Forks6,530

語言Python

分類模型服務

標籤

GitHub Topics