返回事件流

llama.cpp 發布 b9434 修復 Qwen 模型並行問題

GitHub 發布顯示,llama.cpp 項目推出了 b9434 版本,主要修復了張量並行(TP)功能中的粒度問題,特別針對 Qwen 3.5/3.6 模型在使用 3 個 GPU 時的性能。同時,也解決了 afmoe TP 的相關問題,這有助於優化混合專家模型的並行計算穩定性。此次更新提供了廣泛的平台支援,包括 macOS 的 Apple Silicon 和 Intel 版本、iOS 的 XCFramework、Linux 的多種架構如 Ubuntu x64 和 arm64、Windows 的 CPU 和 CUDA 版本,以及 Android arm64 等。官方在發布中詳細列出了各平台的下載連結,並支持 Vulkan、ROCm 和 OpenVINO 等後端,確保硬件相容性。開發團隊建議所有使用 llama.cpp 進行 Qwen 模型部署的用戶及時更新,以享受多 GPU 設定下的改進效能。

來源

來源:GitHub Release