快速、靈活的 LLM 推理引擎

模型服務

這是一個用 Rust 開發的高性能大型語言模型推理框架,支持多種模型和優化,提供快速推理能力。

此 GitHub 開源專案 mistral.rs 是一個快速且靈活的大型語言模型(LLM)推理引擎,使用 Rust 語言開發。專案提供多種功能,包括支持最新的 DiffusionGemma 文本生成、兼容 Anthropic Messages API、CUDA 性能優化(如 CUDA 圖和 FlashInfer 核)、代理運行時(Agentic runtime)以及多模態模型如 Gemma 4。根據 README 的基準測試,它在多種硬件(如 GB10、B200、H100 SXM)上展現出優於 llama.cpp 和 vLLM 的推理速度,特別是在量化模型(如 UQFF 和 MXFP4)方面。此外,它提供 Rust 和 Python SDK,方便開發者整合到自己的應用中。適用於需要高性能 LLM 推理的場景,如企業部署、研究實驗或本地 AI 應用。

Stars7,289
Forks623
語言Rust
分類模型服務
標籤
llmrustinferencequantizationcudauqff
GitHub Topics
llmrustuqff