llama.cpp Vulkan優化 提升Intel/AMD GPU效能
GitHub發布了llama.cpp的b9452版本,本次更新的核心針對Vulkan後端進行了重大效能優化。官方公告表示,針對Q3_K與Q6_K等量化格式,開發團隊採用了新的區塊載入策略,並改為使用32位元整數進行運算,取代了原先較為複雜的位元操作。這些技術改進旨在解決Mesa驅動程式在合併來自不同陣列的連續資料載入時效率不佳的問題,從而強制實現更好的效能。根據說明,在Intel BMG顯示卡搭配Mesa驅動的環境下,這些優化帶來了顯著的效能提升:對於「unsloth/Qwen3.5-9B-GGUF:Q3_K」模型,文字生成速度提升約57%;對於Q6_K格式,提升幅度更達到約78%。進一步的區塊載入優化額外帶來了24%至48%的效能增長。此外,本次更新也將針對NVIDIA顯示卡的量化演算法優化,擴展至了AMD的Xe2架構顯示卡上。新版發布提供了macOS、Linux、Android、Windows及openEuler等多個平台的預編譯二進制檔案,方便使用者下載部署。
來源
來源:GitHub Release
- GitHub Releaseb9452