開源05/31 17:51

llama.cpp 修復投機解碼問題並移除自動啟用

GitHub 發布了 llama.cpp 的 b9464 版本，此次更新主要針對投機解碼功能進行了優化和修復。官方公告表示，開發團隊從伺服器代碼中提取了投機最大草稿大小的邏輯，創建了一個可重用的 common_speculative_n_max 函數，以提高代碼的模塊化程度。此外，修正了草稿上下文中 n_outputs_max 的計算錯誤，並確保 draft context 始終正確處理並行輸出數量。在日誌記錄方面，llama 模組現在會輸出 n_outputs_max 以便調試。另一個關鍵變更是移除了 draft-simple 的自動啟用，這意味著使用者需要手動配置以使用此功能。持續整合方面，版本啟用了拉取請求上的伺服器測試，有助於提前發現問題。此次發布還包括了多個平台的預編譯二進制檔，支援 macOS Apple Silicon、Intel、Linux 各種架構、Android 以及 Windows，涵蓋 CPU、Vulkan、ROCm 和 CUDA 等不同加速後端，為開發者提供了便捷的部署選項。

來源

來源：GitHub Release

GitHub Releaseb9437
GitHub Releaseb9431
GitHub Releaseb9459
GitHub Releaseb9460
GitHub Releaseb9464