開源06/02 24:13

llama.cpp Vulkan優化提升Intel/AMD GPU效能

GitHub發布了llama.cpp的b9452版本，本次更新的核心針對Vulkan後端進行了重大效能優化。官方公告表示，針對Q3_K與Q6_K等量化格式，開發團隊採用了新的區塊載入策略，並改為使用32位元整數進行運算，取代了原先較為複雜的位元操作。這些技術改進旨在解決Mesa驅動程式在合併來自不同陣列的連續資料載入時效率不佳的問題，從而強制實現更好的效能。根據說明，在Intel BMG顯示卡搭配Mesa驅動的環境下，這些優化帶來了顯著的效能提升：對於「unsloth/Qwen3.5-9B-GGUF:Q3_K」模型，文字生成速度提升約57%；對於Q6_K格式，提升幅度更達到約78%。進一步的區塊載入優化額外帶來了24%至48%的效能增長。此外，本次更新也將針對NVIDIA顯示卡的量化演算法優化，擴展至了AMD的Xe2架構顯示卡上。新版發布提供了macOS、Linux、Android、Windows及openEuler等多個平台的預編譯二進制檔案，方便使用者下載部署。

來源

來源：GitHub Release

GitHub Releaseb9452