SCOPE:用於開放式任務的共同演化政策自玩框架
HuggingFace 上發布的研究論文探討了 SCOPE 框架,這是一種專為開放式任務設計的數據免費自玩方法。傳統自玩方法需要規則可檢查的答案,但開放式任務依賴於精選提示或前沿模型裁判,為此 SCOPE 通過共同演化兩個政策來解決:Challenger 政策負責生成基於文件的任務,Solver 政策則通過多輪檢索來回答這些任務。初始模型的凍結副本作為自我裁判,撰寫任務特定的評分標準並根據這些標準評分 Solver 的回應。實驗在三個 7-8B 指令調整模型(Qwen2.5、Qwen3、OLMo-3)上進行,結果顯示 SCOPE 在八個基準測試中將開放式性能提升最多 10.4 分,並匹配或超越使用約 9K 精選提示訓練的 GRPO_data。儘管僅在開放式任務上訓練,SCOPE 也在七個保留的短形式問答基準測試中提升最多 13.8 分,在所有三個模型上超越 GRPO_data。消融研究顯示,共同演化 Challenger 對於保持任務在 Solver 前沿是必要的,收益來自檢索和綜合的改進,且評分標準生成質量是自我評判的瓶頸。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks