GPU 集群管理器:高效部署 AI 模型

模型服務

GPUStack 是一個開源 GPU 集群管理工具,支持 vLLM、SGLang 等推理引擎,用於高性能 AI 模型部署。

此 GitHub 開源專案 GPUStack 是一個開源 GPU 集群管理器,旨在高效部署 AI 模型。它配置和協調推理引擎如 vLLM、SGLang 和 TensorRT-LLM,以優化 GPU 集群性能。核心功能包括多集群 GPU 管理、插件式推理引擎、零日模型支持、性能優化配置(如低延遲或高吞吐模式)以及企業級運營特性(如自動故障恢復、負載平衡、監控和存取控制)。README 說明該平台支持行業標準 API,適用於 LLM、語音、圖像和視頻模型,並提供實時監控和計量功能。適用於開發團隊、IT 組織和服務提供者,以大規模提供 Model-as-a-Service。

Stars5,154
Forks546
語言Python
分類模型服務
標籤
gpu-clusterinference-enginevllmsglangtensorrt-llmdistributed-inferencemaas
GitHub Topics
ascendcudadeepseekdistributed-inferencegenaihigh-performance-inferenceinferencellamallmllm-inferencellm-servingmaasmindieopenaiqwenrocmsglangvllm