DEMON:用於音樂編排噪聲的實時擴散引擎
研究論文中提出DEMON,這是一個專為音樂編排噪聲設計的實時擴散引擎,旨在讓去噪過程能夠作為現場樂器來演奏。它基於ACE-Step 1.5模型和StreamDiffusion的環形緩衝區架構,並利用TensorRT加速,在RTX 5090等消費級GPU上維持每秒高達12.3個解碼完成率。論文貢獻了四個關鍵機制:首先,每槽異構去噪調度,允許移動去噪滑塊而不清除在飛隊列;其次,共享可變每步狀態,使任何參數能在每個求解器步驟即時生效;第三,每幀源混合,提供幀級變換強度軸來調控標準SDE重新噪聲步驟;第四,窗口化VAE解碼,透過感受野分析實現8倍解碼速度提升。這些機制將流擴散參數分為四個傳播類別,根據起始和收斂延遲進行分類,從而支持高響應性的實時控制,適用於音樂表演應用。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源DEMON: Diffusion Engine for Musical Orchestrated Noise