Apple Silicon 優化的 LLM 推理伺服器

本地 AI

專為 Apple Silicon 設計的 LLM 推理伺服器，支援連續批次處理和 SSD 緩存，可透過 macOS 選單列輕鬆管理。

此 GitHub 開源專案是一個為 Apple Silicon 優化的 LLM 推理伺服器，支援連續批次處理和分層 KV 緩存技術，將熱數據保存在內存層，冷數據保存在 SSD 層，即使對話中上下文改變，過去的上下文也能被緩存並重用。專案可透過 macOS 選單列管理，提供 macOS 應用程式和 CLI 工具，安裝簡便，支援 Homebrew 和從原始碼安裝。它自動從子目錄發現 LLM、VLM、嵌入模型和重排序器，並提供 OpenAI 兼容的 API，方便與各種編程工具整合。此外，支援 MCP（Model Context Protocol）協議，適用於本地 AI 推理和開發工作。README 說明要求 macOS 15.0+ 和 Apple Silicon 處理器，並提供詳細的配置和基準測試資訊。