記憶體受限但非頻寬受限:批次-1 LLM 解碼的物理 AI 推論差距
HuggingFace 上發布的一篇研究論文探討物理 AI 系統在批次-1大型語言模型解碼中的推論效能。物理 AI 系統包括機器人、自動駕駛車輛、具身代理和邊緣協作器,通常運行單一串流批次-1自回歸解碼,其中一個使用者或機器人等待下一個詞元。這類工作負載通常被描述為記憶體頻寬受限,但研究透過測量多個 NVIDIA GPU(H100 SXM5、A100-80GB SXM4、L40S 和 L4)的效能,發現更快記憶體並不一定轉化為成比例的延遲降低。在 Qwen-2.5-7B 模型上,L4 GPU 達到約 81% 的峰值 HBM 帶寬,而 H100 僅達到 27%。論文透過 CUDA Graphs A/B 實驗識別出啟動側開銷,在 H100 上改善延遲 1.259 倍,在 L4 上僅 1.028 倍。這表明在快速 GPU 上,啟動開銷成為瓶頸,而在較慢 GPU 上則隱藏。對於部署,記憶體節省僅在運行時實現才有效,常見量化方法如 bnb-nf4 和 AutoAWQ+Marlin 未能恢復預期的 4 倍權重流量減少,而 GPTQ+ExLlamaV2 使用調整過的 int4 核心則達到 17.36 毫秒每步,從 62.32 毫秒的 bf16 基線改善。論文強調物理 AI 推論是記憶體主導的,但更快記憶體不一定帶來成比例延遲改善,這對硬體選擇和優化有重要意義。
來源
來源:Hugging Face / 論文來源