Mooncake:Kimi LLM 服務平台
模型服務Mooncake 是 Moonshot AI 的 Kimi LLM 服務平台,開源 Transfer Engine 和 Mooncake Store,支援分散式 KVCache 架構以提升推論效能。
此 GitHub 開源專案 Mooncake 是 Moonshot AI 所提供的 Kimi LLM 服務的 serving 平台。它採用以 KVCache 為中心的分散式架構,旨在提升大規模語言模型的推論效能。專案開源了 Transfer Engine 和 Mooncake Store,支援 RDMA 等高效能資料傳輸技術,適用於 vLLM、SGLang 等推論框架,並已在強化學習訓練中應用於 SGLang 的 P2P 權重傳輸。特色包括跨裝置、跨機器的資料傳輸,以及與 PyTorch 和其他工具的整合。適用場景涵蓋企業級 LLM 推論服務部署、分散式訓練任務,以及需要高吞吐量和低延遲的 AI 應用。