NVIDIA 模型優化器
模型服務NVIDIA 推出的統一模型優化庫,支援量化、蒸餾等技術,用於壓縮深度學習模型並優化推理速度。
此 GitHub 開源專案名為 NVIDIA Model Optimizer,是一個統一的模型優化庫,集成了量化、蒸餾、剪枝、神經架構搜索和推測解碼等前沿技術。它專為壓縮深度學習模型而設計,以便在 TensorRT-LLM、TensorRT、vLLM 等下游部署框架中優化推理速度。專案支援 Hugging Face、PyTorch 和 ONNX 格式的模型輸入,並提供易用的 Python API,讓用戶能靈活組合各種優化技術,導出優化後的量化檢查點。此外,它與 NVIDIA AI 軟體生態系統深度整合,例如通過 Megatron-Bridge 支持訓練時的優化,並提供統一的導出 API 支援 transformers 和 diffusers 模型。適用於需要提升模型部署效率和性能的 AI 開發者和工程師。