llama.cpp：高效能 LLM 推理引擎

模型服務

以純 C/C++ 實現的大型語言模型推理庫，支援多種硬體平台，著重於本地與雲端環境的高效能運行。

此 GitHub 開源專案 llama.cpp 的主要目標，是在廣泛的硬體（從個人電腦到雲端伺服器）上，以極簡設定實現狀態最先進的大型語言模型（LLM）推論效能。其核心是一個純粹的 C/C++ 實現，不依賴任何外部函式庫，並特別針對 Apple Silicon 進行了深度優化，充分利用 ARM NEON、Accelerate 及 Metal 框架。專案提供命令列工具、OpenAI 相容的 API 伺服器，並支援將模型量化為 GGUF 格式以降低記憶體需求。README 說明指出，它持續整合新模型架構（如 GPT-oss）、支援多模態輸入，並擴展至瀏覽器環境（透過 WebGPU），是本地部署與運行 LLM 的關鍵基礎設施。

Repoggml-org/llama.cpp

Stars⭐ 116,520

Forks19,575

語言C++

分類模型服務

標籤

GitHub Topics