返回事件流

GrepSeek:訓練搜尋代理直接與語料庫互動

研究論文提出 GrepSeek,這是一個優化的直接語料庫交互搜尋代理,旨在訓練一個緊湊的代理來從大型文本語料庫中尋找、過濾和組合證據。論文指出,現有系統通常使用檢索器,而 GrepSeek 則將語料庫本身視為搜尋環境,通過執行可執行的 shell 命令來獲取證據。為了解決強化學習在大型語料庫上的不穩定性,研究團隊提出了一個兩階段訓練管道:首先使用答案感知的導師和答案盲的規劃器構建冷啟動數據集,生成驗證過的、因果基礎的搜尋軌跡;其次使用群體相對策略優化(GRPO)來精煉初始化策略,讓代理通過直接與語料庫互動來改善任務導向的搜尋行為。實驗結果顯示,GrepSeek 在七個開放域問答基準測試中取得了最強的整體 token 級 F1 和精確匹配分數。論文也指出純詞彙交互在查詢表面形式變化較大的情況下的局限性,建議直接語料庫交互作為現有檢索範式的實用且有競爭力的補充方法。

來源

來源:Hugging Face / 論文來源