NVIDIA TensorRT-LLM：高效大型語言模型推理優化工具

模型服務

TensorRT-LLM 是 NVIDIA 提供的開源框架，用於在 GPU 上優化大型語言模型的推理效率，支援多種模型架構和硬體。

此 GitHub 開源專案 NVIDIA/TensorRT-LLM 是由 NVIDIA 開發的高性能大型語言模型推理框架。它提供了一個易於使用的 Python API，讓使用者可以定義和優化 LLM 模型，並在 NVIDIA GPU 上執行高效推理。專案整合了 state-of-the-art 的優化技術，包括專用 CUDA kernel、高效 runtime 和可擴展的 Python 框架，支援如 MoE（混合專家模型）等先進架構。此外，TensorRT-LLM 包含 Python 和 C++ runtime 元件，以確保推理執行的高效性和靈活性。適用於需要部署和服務大型語言模型的 AI 開發者、研究人員和企業，特別是在追求低延遲、高吞吐量和 GPU 資源優化的場景，如雲端 AI 服務、邊緣計算和高性能計算環境。專案有詳細的文檔、技術部落格和活躍社群支援。

RepoNVIDIA/TensorRT-LLM

Stars⭐ 13,867

Forks2,465

語言Python

分類模型服務

標籤

GitHub Topics