研究06/02 24:13

GDSD：擴散語言模型的引導式去噪器自蒸餾方法

研究論文提出 Guided Denoiser Self-Distillation (GDSD) 方法，專門針對擴散大型語言模型的強化學習優化。傳統方法通常使用證據下界 (ELBO) 作為策略似然的替代，但這會在訓練和推論之間引入偏差，影響模型性能。GDSD 則通過自蒸餾技術，直接從優勢引導的自教師中蒸餾去噪器，避免了 ELBO 帶來的偏差問題。實驗結果顯示，在 LLaDA-8B 和 Dream-7B 模型上，於規劃、數學和編程等基準測試中，GDSD 比先前最先進的 ELBO 方法表現更優，測試準確率最高提升達 19.6%，同時訓練過程更穩定。此外，研究指出 GDSD 可以視為應用不同蒸餾散度的實例，但避免了可診斷的病理問題。相關代碼已在 GitHub 上發布，供進一步研究和應用。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models