用於 RL 後訓練與環境的介面庫
智能體工作流一個端到端框架,用於創建、部署和使用隔離的執行環境進行代理式 RL 訓練。
此 GitHub 開源專案由 Hugging Face 開發,提供一個用於強化學習(RL)後訓練與環境的介面庫。它是一個端到端框架,基於 Gymnasium 風格的簡單 API,用於創建、部署和使用隔離的執行環境進行代理式 RL 訓練。專案支援異步和同步使用,允許用戶在 RL 訓練循環中輕鬆互動,例如訓練大型語言模型(LLM)玩遊戲。環境創作者可以利用該框架創建安全、隔離的環境,並通過 HTTP 和 Docker 技術部署到 Hugging Face Spaces。專案還提供 CLI 工具來初始化和部署環境,適用於研究者和 RL 框架開發者。