返回事件流

llama.cpp 修復投機解碼問題並移除自動啟用

GitHub 發布了 llama.cpp 的 b9464 版本,此次更新主要針對投機解碼功能進行了優化和修復。官方公告表示,開發團隊從伺服器代碼中提取了投機最大草稿大小的邏輯,創建了一個可重用的 common_speculative_n_max 函數,以提高代碼的模塊化程度。此外,修正了草稿上下文中 n_outputs_max 的計算錯誤,並確保 draft context 始終正確處理並行輸出數量。在日誌記錄方面,llama 模組現在會輸出 n_outputs_max 以便調試。另一個關鍵變更是移除了 draft-simple 的自動啟用,這意味著使用者需要手動配置以使用此功能。持續整合方面,版本啟用了拉取請求上的伺服器測試,有助於提前發現問題。此次發布還包括了多個平台的預編譯二進制檔,支援 macOS Apple Silicon、Intel、Linux 各種架構、Android 以及 Windows,涵蓋 CPU、Vulkan、ROCm 和 CUDA 等不同加速後端,為開發者提供了便捷的部署選項。

來源

來源:GitHub Release