研究06/02 12:07

MindZero：學習無標註的在線心理推理

研究論文提出 MindZero，一個創新的自監督強化學習框架，專門用於訓練多模態大型語言模型 (MLLMs)，以實現高效且穩健的在線心理推理。MindZero 的設計旨在解決 Theory of Mind (ToM) 領域的三大核心挑戰：首先，在線推理時需要對多個假設進行穩健的不確定性更新；其次，推理過程必須高效，以適應即時輔助的需求；最後，現實世界中缺乏真實的心理狀態標註數據。為此，MindZero 採用自監督學習方法，在訓練階段，模型基於觀察到的行為生成心理狀態假設，並通過一個規劃器來估計這些行為的可能性，從而獲得獎勵信號。這種方式完全消除了對明確心理狀態標註的依賴。完成訓練後，MindZero 將模型基於的推理能力內化為快速的單次推理過程。研究團隊在 gridworld 和家庭域等多種挑戰性任務中對 MindZero 進行了評估，結果表明，單純使用大型語言模型不足以勝任，而傳統的基於模型的方法雖然能提升準確性，但存在速度慢、成本高和受限於骨幹 MLLM 容量的缺陷。相比之下，MindZero 不僅增強了 MLLMs 的內在 ToM 能力，還在準確性和效率兩方面均顯著超越基於模型的方法，充分證明了心理推理可以作為一種自監督技能被有效學習。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源MindZero: Learning Online Mental Reasoning With Zero Annotations
網頁來源MindZero: Learning Online Mental Reasoning With Zero Annotations