Mooncake:Kimi LLM 服務平台

模型服務

Mooncake 是 Moonshot AI 的 Kimi LLM 服務平台,開源 Transfer Engine 和 Mooncake Store,支援分散式 KVCache 架構以提升推論效能。

此 GitHub 開源專案 Mooncake 是 Moonshot AI 所提供的 Kimi LLM 服務的 serving 平台。它採用以 KVCache 為中心的分散式架構,旨在提升大規模語言模型的推論效能。專案開源了 Transfer Engine 和 Mooncake Store,支援 RDMA 等高效能資料傳輸技術,適用於 vLLM、SGLang 等推論框架,並已在強化學習訓練中應用於 SGLang 的 P2P 權重傳輸。特色包括跨裝置、跨機器的資料傳輸,以及與 PyTorch 和其他工具的整合。適用場景涵蓋企業級 LLM 推論服務部署、分散式訓練任務,以及需要高吞吐量和低延遲的 AI 應用。

Stars5,571
Forks849
語言C++
分類模型服務
標籤
llminferencekvcacherdmadisaggregation
GitHub Topics
disaggregationinferencekvcachellmrdmareinforcement-learningsglangtokenspeedtrt-llmvllm