NVIDIA 模型優化器

模型服務

NVIDIA 推出的統一模型優化庫，支援量化、蒸餾等技術，用於壓縮深度學習模型並優化推理速度。

此 GitHub 開源專案名為 NVIDIA Model Optimizer，是一個統一的模型優化庫，集成了量化、蒸餾、剪枝、神經架構搜索和推測解碼等前沿技術。它專為壓縮深度學習模型而設計，以便在 TensorRT-LLM、TensorRT、vLLM 等下游部署框架中優化推理速度。專案支援 Hugging Face、PyTorch 和 ONNX 格式的模型輸入，並提供易用的 Python API，讓用戶能靈活組合各種優化技術，導出優化後的量化檢查點。此外，它與 NVIDIA AI 軟體生態系統深度整合，例如通過 Megatron-Bridge 支持訓練時的優化，並提供統一的導出 API 支援 transformers 和 diffusers 模型。適用於需要提升模型部署效率和性能的 AI 開發者和工程師。

RepoNVIDIA/Model-Optimizer

Stars⭐ 2,930

Forks441

語言Python

分類模型服務

標籤