GPU 集群管理器：高效部署 AI 模型

模型服務

GPUStack 是一個開源 GPU 集群管理工具，支持 vLLM、SGLang 等推理引擎，用於高性能 AI 模型部署。

此 GitHub 開源專案 GPUStack 是一個開源 GPU 集群管理器，旨在高效部署 AI 模型。它配置和協調推理引擎如 vLLM、SGLang 和 TensorRT-LLM，以優化 GPU 集群性能。核心功能包括多集群 GPU 管理、插件式推理引擎、零日模型支持、性能優化配置（如低延遲或高吞吐模式）以及企業級運營特性（如自動故障恢復、負載平衡、監控和存取控制）。README 說明該平台支持行業標準 API，適用於 LLM、語音、圖像和視頻模型，並提供實時監控和計量功能。適用於開發團隊、IT 組織和服務提供者，以大規模提供 Model-as-a-Service。

Repogpustack/gpustack

Stars⭐ 5,154

Forks546

語言Python

分類模型服務

標籤

GitHub Topics