GCPO:離散策略優化中的引導對比權杖信用分配
研究論文提出一種名為引導對比策略優化(GCPO)的新演算法,旨在解決離散策略優化中的信用分配問題。現有的群體優勢強化學習方法,如GRPO和DAPO,在數學推理和文字轉圖像生成等領域表現出色,但其依賴樣本級獎勵,導致權杖級信用分配粗糙,無法捕捉細粒度貢獻。GCPO透過在正負提示下對比模型預測,計算預測差異並按比例分配權杖級優勢值,從而提供更精確和資訊豐富的學習信號。實驗中,GCPO在文字轉圖像生成任務中能強調與文本提示對齊的視覺區域,在思維鏈推理任務中則聚焦關鍵詞和推理步驟。通過廣泛的實驗,GCPO在文字轉圖像生成和思維鏈推理基準測試中一致優於GRPO和DAPO基線,驗證其作為通用且可擴展的離散策略優化策略的有效性。
來源
來源:Hugging Face / 論文來源