用於 RL 後訓練與環境的介面庫

智能體工作流

一個端到端框架，用於創建、部署和使用隔離的執行環境進行代理式 RL 訓練。

此 GitHub 開源專案由 Hugging Face 開發，提供一個用於強化學習（RL）後訓練與環境的介面庫。它是一個端到端框架，基於 Gymnasium 風格的簡單 API，用於創建、部署和使用隔離的執行環境進行代理式 RL 訓練。專案支援異步和同步使用，允許用戶在 RL 訓練循環中輕鬆互動，例如訓練大型語言模型（LLM）玩遊戲。環境創作者可以利用該框架創建安全、隔離的環境，並通過 HTTP 和 Docker 技術部署到 Hugging Face Spaces。專案還提供 CLI 工具來初始化和部署環境，適用於研究者和 RL 框架開發者。