研究06/02 24:10

SCOPE：用於開放式任務的共同演化政策自玩框架

HuggingFace 上發布的研究論文探討了 SCOPE 框架，這是一種專為開放式任務設計的數據免費自玩方法。傳統自玩方法需要規則可檢查的答案，但開放式任務依賴於精選提示或前沿模型裁判，為此 SCOPE 通過共同演化兩個政策來解決：Challenger 政策負責生成基於文件的任務，Solver 政策則通過多輪檢索來回答這些任務。初始模型的凍結副本作為自我裁判，撰寫任務特定的評分標準並根據這些標準評分 Solver 的回應。實驗在三個 7-8B 指令調整模型（Qwen2.5、Qwen3、OLMo-3）上進行，結果顯示 SCOPE 在八個基準測試中將開放式性能提升最多 10.4 分，並匹配或超越使用約 9K 精選提示訓練的 GRPO_data。儘管僅在開放式任務上訓練，SCOPE 也在七個保留的短形式問答基準測試中提升最多 13.8 分，在所有三個模型上超越 GRPO_data。消融研究顯示，共同演化 Challenger 對於保持任務在 Solver 前沿是必要的，收益來自檢索和綜合的改進，且評分標準生成質量是自我評判的瓶頸。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks