返回事件流

MindZero:學習無標註的在線心理推理

研究論文提出 MindZero,一個創新的自監督強化學習框架,專門用於訓練多模態大型語言模型 (MLLMs),以實現高效且穩健的在線心理推理。MindZero 的設計旨在解決 Theory of Mind (ToM) 領域的三大核心挑戰:首先,在線推理時需要對多個假設進行穩健的不確定性更新;其次,推理過程必須高效,以適應即時輔助的需求;最後,現實世界中缺乏真實的心理狀態標註數據。為此,MindZero 採用自監督學習方法,在訓練階段,模型基於觀察到的行為生成心理狀態假設,並通過一個規劃器來估計這些行為的可能性,從而獲得獎勵信號。這種方式完全消除了對明確心理狀態標註的依賴。完成訓練後,MindZero 將模型基於的推理能力內化為快速的單次推理過程。研究團隊在 gridworld 和家庭域等多種挑戰性任務中對 MindZero 進行了評估,結果表明,單純使用大型語言模型不足以勝任,而傳統的基於模型的方法雖然能提升準確性,但存在速度慢、成本高和受限於骨幹 MLLM 容量的缺陷。相比之下,MindZero 不僅增強了 MLLMs 的內在 ToM 能力,還在準確性和效率兩方面均顯著超越基於模型的方法,充分證明了心理推理可以作為一種自監督技能被有效學習。

來源:Hugging Face / 論文來源