研究06/02 01:06

GCPO：離散策略優化中的引導對比權杖信用分配

研究論文提出一種名為引導對比策略優化（GCPO）的新演算法，旨在解決離散策略優化中的信用分配問題。現有的群體優勢強化學習方法，如GRPO和DAPO，在數學推理和文字轉圖像生成等領域表現出色，但其依賴樣本級獎勵，導致權杖級信用分配粗糙，無法捕捉細粒度貢獻。GCPO透過在正負提示下對比模型預測，計算預測差異並按比例分配權杖級優勢值，從而提供更精確和資訊豐富的學習信號。實驗中，GCPO在文字轉圖像生成任務中能強調與文本提示對齊的視覺區域，在思維鏈推理任務中則聚焦關鍵詞和推理步驟。通過廣泛的實驗，GCPO在文字轉圖像生成和思維鏈推理基準測試中一致優於GRPO和DAPO基線，驗證其作為通用且可擴展的離散策略優化策略的有效性。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Guidance Contrastive Token Credit Assignment for Discrete Policy Optimization