快速、靈活的 LLM 推理引擎

模型服務

這是一個用 Rust 開發的高性能大型語言模型推理框架，支持多種模型和優化，提供快速推理能力。

此 GitHub 開源專案 mistral.rs 是一個快速且靈活的大型語言模型（LLM）推理引擎，使用 Rust 語言開發。專案提供多種功能，包括支持最新的 DiffusionGemma 文本生成、兼容 Anthropic Messages API、CUDA 性能優化（如 CUDA 圖和 FlashInfer 核）、代理運行時（Agentic runtime）以及多模態模型如 Gemma 4。根據 README 的基準測試，它在多種硬件（如 GB10、B200、H100 SXM）上展現出優於 llama.cpp 和 vLLM 的推理速度，特別是在量化模型（如 UQFF 和 MXFP4）方面。此外，它提供 Rust 和 Python SDK，方便開發者整合到自己的應用中。適用於需要高性能 LLM 推理的場景，如企業部署、研究實驗或本地 AI 應用。

RepoEricLBuehler/mistral.rs

Stars⭐ 7,289

Forks623

語言Rust

分類模型服務

標籤

GitHub Topics