LMCache:以最快 KV 快取層提升您的 LLM 效能
模型服務LMCache 是一個 KV 快取管理層,專為大型語言模型推理設計,能減少首 token 時間並提升吞吐量。
此 GitHub 開源專案 LMCache 是一個專為大型語言模型(LLM)推理設計的 KV 快取管理層。它將 KV 快取從臨時狀態轉變為可重用的 AI 原生知識,支援持久儲存、跨引擎重用、監控和轉換。README 說明指出,專案提供減少首 token 時間(TTFT)和提升吞吐量的功能,尤其適用於長上下文代理工作負載、多輪對話和知識增強應用(如 RAG)。LMCache 與供應商無關,能整合 vLLM、Redis 等工具,並支援多種硬體平台如 AMD 和 NVIDIA。專案已加入 PyTorch 基金會,在多個生產環境中驗證其效能優勢。