GDSD:擴散語言模型的引導式去噪器自蒸餾方法
研究論文提出 Guided Denoiser Self-Distillation (GDSD) 方法,專門針對擴散大型語言模型的強化學習優化。傳統方法通常使用證據下界 (ELBO) 作為策略似然的替代,但這會在訓練和推論之間引入偏差,影響模型性能。GDSD 則通過自蒸餾技術,直接從優勢引導的自教師中蒸餾去噪器,避免了 ELBO 帶來的偏差問題。實驗結果顯示,在 LLaDA-8B 和 Dream-7B 模型上,於規劃、數學和編程等基準測試中,GDSD 比先前最先進的 ELBO 方法表現更優,測試準確率最高提升達 19.6%,同時訓練過程更穩定。此外,研究指出 GDSD 可以視為應用不同蒸餾散度的實例,但避免了可診斷的病理問題。相關代碼已在 GitHub 上發布,供進一步研究和應用。
來源
來源:Hugging Face / 論文來源