頻率 | Frequency Feed — AI 模型、產品、工具與開源動態

TQNN AnyEngine API 結構化數據高維推理工具

rlynn10/tqnn-anyengine-api

透過 API 將結構化數據如腦電圖、金融數據轉換為高維推理輸出，支援即時分析與多種模式。

⭐ 5Python06/15

apibciedge-aieeg

高效能大型語言模型與多模態模型服務框架

sgl-project/sglang

SGLang 為大型語言模型及多模態模型提供高效能服務框架，支援快速推理與最佳化部署，適用於高吞吐量應用場景。

⭐ 28,991Python06/15

attentionblackwellcudadeepseek

llama.cpp：高效能 LLM 推理引擎

ggml-org/llama.cpp

以純 C/C++ 實現的大型語言模型推理庫，支援多種硬體平台，著重於本地與雲端環境的高效能運行。

⭐ 116,520C++06/15

ggml

快速、靈活的 LLM 推理引擎

EricLBuehler/mistral.rs

這是一個用 Rust 開發的高性能大型語言模型推理框架，支持多種模型和優化，提供快速推理能力。

⭐ 7,289Rust06/15

llmrustuqff

Hugging Face Transformers 機器學習模型框架

huggingface/transformers

提供文字、視覺、音頻和多模態機器學習模型的定義框架，支援訓練與推理。

⭐ 161,583Python06/15

audiodeep-learningdeepseekgemma

vLLM：高效能 LLM 推論與服務引擎

vllm-project/vllm

vLLM 是一個開源框架，專為大型語言模型提供快速、記憶體高效的推論和服務，支援多種硬體和模型架構。

⭐ 82,843Python06/15

amdblackwellcudadeepseek

GPU 集群管理器：高效部署 AI 模型

gpustack/gpustack

GPUStack 是一個開源 GPU 集群管理工具，支持 vLLM、SGLang 等推理引擎，用於高性能 AI 模型部署。

⭐ 5,154Python06/14

ascendcudadeepseekdistributed-inference

LMCache：以最快 KV 快取層提升您的 LLM 效能

LMCache/LMCache

LMCache 是一個 KV 快取管理層，專為大型語言模型推理設計，能減少首 token 時間並提升吞吐量。

⭐ 9,043Python06/14

amdcudafastinference

Mooncake：Kimi LLM 服務平台

kvcache-ai/Mooncake

Mooncake 是 Moonshot AI 的 Kimi LLM 服務平台，開源 Transfer Engine 和 Mooncake Store，支援分散式 KVCache 架構以提升推論效能。

⭐ 5,571C++06/14

disaggregationinferencekvcachellm

NVIDIA TensorRT-LLM：高效大型語言模型推理優化工具

NVIDIA/TensorRT-LLM

TensorRT-LLM 是 NVIDIA 提供的開源框架，用於在 GPU 上優化大型語言模型的推理效率，支援多種模型架構和硬體。

⭐ 13,867Python06/14

blackwellcudallm-servingmoe

Xinference：統一開源模型推理平台

xorbitsai/inference

通過一行程式碼替換 GPT，在雲端、本地或筆記型電腦上運行開源、語音和多模態模型，提供統一生產就緒的推理 API。

⭐ 9,349Python06/14

artificial-intelligencechatglmdeploymentflan-t5

高效能瀏覽器內大型語言模型推論引擎

mlc-ai/web-llm

WebLLM 是一個在瀏覽器中執行的高效能 LLM 推論引擎，支援 WebGPU 加速，完全相容 OpenAI API。

⭐ 18,192TypeScript06/09

chatgptdeep-learninglanguage-modelllm

GitHub AI 開源專案地圖