Vulkan 管線編譯鎖機制改進
llama.cpp 發布 b9458 版本,改進 Vulkan 管線編譯時的鎖機制,避免阻塞其他線程,提升並行效能。
認識 Memory OS:基於 Hermes Agent 的六層開源記憶堆疊
社區開發者推出 Memory OS,這是一個開源記憶架構,為 Hermes Agent 添加六層記憶系統,強調本地運行、結構化檢索和記憶效率。
llama.cpp 新增 EXAONE 4.5 模型支援
llama.cpp 發布新版本 b9453,加入 EXAONE 4.5 模型的實現,並優化多模態處理功能。
llama.cpp Vulkan優化 提升Intel/AMD GPU效能
GitHub發布的llama.cpp新版本針對Vulkan後端進行優化,透過區塊載入與32位元整數運算,顯著提升Intel BMG及AMD RDNA GPU上Q3_K/Q6_K量化模型的推論速度。
llama.cpp 發佈 b9451 版本:Vulkan 後端優化
llama.cpp 官方發佈 b9451 版本,主要針對 Vulkan 圖形後端進行優化,並提供多個作業系統的編譯版本。
Vulkan 改進減少主機記憶體鎖競爭
llama.cpp b9457 版本發布,透過 Vulkan 優化減少鎖競爭,並提供多平台二進制檔案下載。
llama.cpp 發佈 b9444 版本
llama.cpp 項目在 GitHub 上發佈了 b9444 版本,包含伺服器端更新和多平台二進制檔。
ggml 新增 LoongArch LSX 支援並發布新版二進位檔案
ggml 發布 b9430 版本,為 LoongArch 架構新增 LSX 支援,優化多種量化格式的點積計算,並提供多平台二進位檔案。
llama.cpp b9428 版本發布:修復 CI 及提供多平台二進制包
開源專案 llama.cpp 發布 b9428 版本,修復 s390x 平台 CI 作業、為 iOS-Xcode 啟用多線程構建,並為多個作業系統提供預編譯二進制檔。
llama.cpp b9433 版本發布:恢復 Metal 大型核心 im2col 實現
GitHub 發布 llama.cpp b9433 版本,主要修復了 Metal 中大型核心的 im2col 實現問題,並提供多平台二進制檔案下載。
llama.cpp 發布 b9434 修復 Qwen 模型並行問題
llama.cpp 的 b9434 版本修復了 Qwen 3.5/3.6 模型在 3 GPU 張量並行中的粒度問題。
llama.cpp 修復投機解碼問題並移除自動啟用
llama.cpp 發布 b9464 版本,主要修復投機解碼中的 n_outputs_max 錯誤,並移除 draft-simple 的自動啟用功能。
Llama.cpp 發布 b9441 版本修復 ETag 截斷問題
Llama.cpp 最新版本針對 MSVC 編譯器修復了 ETag 截斷問題,並提供多種平台的預編譯二進制檔案。
llama.cpp 發布 b9436 版本:新增 OpenCL bf16 轉換支援
llama.cpp 推出新版本 b9436,支援 OpenCL 的 bf16 數據格式並轉換為 f16,適用於多個平台包括 macOS、Linux 和 Windows。
vllm v0.22.0 版本發布:DeepSeek V4 成熟度提升與性能優化
vllm 發布 v0.22.0 版本,包含 459 個提交,主要亮點包括 DeepSeek V4 模型成熟度改進、Model Runner V2 進展、實驗性 Rust 前端以及多層 KV 緩存卸載框架。
Netflix 工程師開發 Headroom 軟件削減 AI 費用並開源
Netflix 資深工程師 Tejas Chopra 創建 Headroom 開源應用,透過壓縮大型語言模型的 token 使用量來節省成本,據報導已為用戶節省約 70 萬美元。
Chad Whitacre 宣佈退休,因 AI 衝擊選擇離線生活
開發者 Chad Whitacre 以 AI 為最後稻草,宣佈從科技領域退休,計劃過類似阿米許人的離線生活。