LMCache：以最快 KV 快取層提升您的 LLM 效能

模型服務

LMCache 是一個 KV 快取管理層，專為大型語言模型推理設計，能減少首 token 時間並提升吞吐量。

此 GitHub 開源專案 LMCache 是一個專為大型語言模型（LLM）推理設計的 KV 快取管理層。它將 KV 快取從臨時狀態轉變為可重用的 AI 原生知識，支援持久儲存、跨引擎重用、監控和轉換。README 說明指出，專案提供減少首 token 時間（TTFT）和提升吞吐量的功能，尤其適用於長上下文代理工作負載、多輪對話和知識增強應用（如 RAG）。LMCache 與供應商無關，能整合 vLLM、Redis 等工具，並支援多種硬體平台如 AMD 和 NVIDIA。專案已加入 PyTorch 基金會，在多個生產環境中驗證其效能優勢。

RepoLMCache/LMCache

Stars⭐ 9,043

Forks1,316

語言Python

分類模型服務

標籤

GitHub Topics