高效能瀏覽器內大型語言模型推論引擎
模型服務WebLLM 是一個在瀏覽器中執行的高效能 LLM 推論引擎,支援 WebGPU 加速,完全相容 OpenAI API。
此 GitHub 開源專案 WebLLM 提供一個高效能的瀏覽器內大型語言模型推論引擎。專案利用 WebGPU 進行硬體加速,讓語言模型推論直接在網頁瀏覽器中執行,無需伺服器支援,保障使用者隱私。它完全相容於 OpenAI API,支援串流回應、JSON 模式等功能,並內置多種開源模型如 Llama 3、Phi 3、Gemma 等。專案易於整合,可透過 NPM 套件管理器或 CDN 使用,提供模組化設計以連接 UI 元件。適用於建構網頁版 AI 助理、聊天機器人,以及需要即時互動和隱私保護的應用場景。README 說明專案是 MLC LLM 的伴隨專案,旨在實現 LLM 的跨硬體環境通用部署。