開源05/31 17:51

llama.cpp 發布 b9434 修復 Qwen 模型並行問題

GitHub 發布顯示，llama.cpp 項目推出了 b9434 版本，主要修復了張量並行（TP）功能中的粒度問題，特別針對 Qwen 3.5/3.6 模型在使用 3 個 GPU 時的性能。同時，也解決了 afmoe TP 的相關問題，這有助於優化混合專家模型的並行計算穩定性。此次更新提供了廣泛的平台支援，包括 macOS 的 Apple Silicon 和 Intel 版本、iOS 的 XCFramework、Linux 的多種架構如 Ubuntu x64 和 arm64、Windows 的 CPU 和 CUDA 版本，以及 Android arm64 等。官方在發布中詳細列出了各平台的下載連結，並支持 Vulkan、ROCm 和 OpenVINO 等後端，確保硬件相容性。開發團隊建議所有使用 llama.cpp 進行 Qwen 模型部署的用戶及時更新，以享受多 GPU 設定下的改進效能。

來源

來源：GitHub Release

GitHub Releaseb9434