llama.cpp:高效能 LLM 推理引擎

模型服務

以純 C/C++ 實現的大型語言模型推理庫,支援多種硬體平台,著重於本地與雲端環境的高效能運行。

此 GitHub 開源專案 llama.cpp 的主要目標,是在廣泛的硬體(從個人電腦到雲端伺服器)上,以極簡設定實現狀態最先進的大型語言模型(LLM)推論效能。其核心是一個純粹的 C/C++ 實現,不依賴任何外部函式庫,並特別針對 Apple Silicon 進行了深度優化,充分利用 ARM NEON、Accelerate 及 Metal 框架。專案提供命令列工具、OpenAI 相容的 API 伺服器,並支援將模型量化為 GGUF 格式以降低記憶體需求。README 說明指出,它持續整合新模型架構(如 GPT-oss)、支援多模態輸入,並擴展至瀏覽器環境(透過 WebGPU),是本地部署與運行 LLM 的關鍵基礎設施。

Stars116,520
Forks19,575
語言C++
分類模型服務
標籤
llminferencec++ggmlquantizationapple-siliconopenai-compatible-api
GitHub Topics
ggml