高效能大型語言模型與多模態模型服務框架

模型服務

SGLang 為大型語言模型及多模態模型提供高效能服務框架,支援快速推理與最佳化部署,適用於高吞吐量應用場景。

此 GitHub 開源專案 SGLang 是一個高效能服務框架,專為大型語言模型(LLM)和多模態模型設計。它提供快速的推理與部署功能,支援多種模型架構如 Llama、Qwen、DeepSeek 等,並在 NVIDIA 最新硬體(如 GB300 NVL72)上實現了顯著的性能提升,例如 25 倍推理效能。專案還包括對擴散模型的加速,適用於視訊和圖像生成。根據 README 說明,SGLang 已獲得 a16z 的開源 AI 資助,並被廣泛用於高吞吐量的模型服務場景。框架支援多種硬體平台,包括 CUDA 和 TPU,提供詳細的文檔和社群支援,適合 AI 開發者、研究人員和企業級部署需求。

Stars28,991
Forks6,530
語言Python
分類模型服務
標籤
llminferenceservingmultimodalpythoncudatpu
GitHub Topics
attentionblackwellcudadeepseekdiffusionglmgpt-ossinferencellamallmminimaxmoeqwenqwen-imagereinforcement-learningtransformervlmwan