研究06/02 24:13

信任區域行為混合在策略蒸餾中的應用

在深度學習領域，知識蒸餾是一種將大型預訓練模型的知識壓縮到小型模型中的技術。在策略蒸餾進一步改進了這一過程，它允許學生模型在自己的策略下採樣訓練數據，同時模仿教師模型的輸出，從而減少前綴不匹配的問題。然而，研究論文指出，學生模型在訓練初期的滾動輸出往往質量不高，這使得教師的監督信號作用於較弱或低效的前綴上，影響學習效率。針對這一挑戰，論文探討了信任區域行為混合方法作為一種預熱策略。該方法的核心思想是在訓練開始時，用一個在信任區域內最接近教師行為的策略來替代學生的早期滾動策略，同時保持原有的在策略蒸餾損失函數不變。信任區域通過KL散度來界定，確保行為改變不會偏離學生模型太遠。KL預算會根據訓練進度逐漸減少到零，從而使學生模型逐步回歸到使用自己的滾動策略進行訓練。在兩個數學推理任務的蒸餾實驗中，信任區域行為混合方法展現出優越的性能，在所有比較方法中取得了最高的平均分數。這表明，該方法能有效提升在策略蒸餾的訓練穩定性和最終模型質量。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Trust-Region Behavior Blending for On-Policy Distillation