MERIT:學習解耦音樂表徵用於音頻相似度
研究論文提出 MERIT 框架,旨在解決現有音樂相似度模型中計算單一分數而糾結旋律、節奏和音色等不同音樂維度的問題,這限制了用戶的控制性和可解釋性,無法執行細粒度查詢。MERIT 學習解耦的、因子特定的音樂表徵,專門針對這三個核心維度。為了克服現實世界音頻中缺乏孤立音樂變化的挑戰,論文採用了一種新穎的訓練策略,結合條件音頻生成和源分離音軌,以強化訓練數據中的單因子變化。評估結果顯示,MERIT 在各因子維度上實現了強力的解耦,每個頭部對其目標感知維度反應強烈,而在其他維度上接近隨機水平,這種表徵性質在合成訓練域和獨立真實世界音頻中均得到保持。這項研究為音樂信息檢索和音頻相似度任務提供了新的可能性。
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Decentralized Instruction Tuning: Conflict-Aware Splitting and Weight Merging
- Hugging Face / 論文來源MERIT: Learning Disentangled Music Representations for Audio Similarity