返回事件流

VLMs 何時不回答空間問題?新研究挑戰現有假設

在 HuggingFace 發布的研究論文中,學者們提出了一個新的評估框架 SpatialUncertain,以挑戰現有視覺語言模型(VLMs)在空間推理評估中的假設。論文探討指出,真實世界中的視覺觀測存在內在局限性,例如遮擋可能使物體不可見,而視角模糊則可能產生誤導性的幾何線索。然而,現有的空間推理基準測試通常假設觀測足夠可靠,僅專注於模型是否能產生正確答案,而非是否認識到問題在某些情況下無法回答。為此,研究構建了可控制的評估框架,設計了在清晰觀測下可回答、但在引入遮擋或視角模糊挑戰時需避免回答的空間問題,並評估模型能否識別額外的視角以解決模糊性。結果顯示,在多個前沿開源和閉源 VLMs 中,模型表現出兩種一致的失敗模式:一是過度自信地回答,即使視覺證據不完整或誤導,平均準確率在遮擋下約為 30%,在視角模糊下低於 10%;二是即使有額外視角可用,一些模型在識別哪些視角能提供可靠證據時表現接近隨機。研究呼籲未來評估應超越答案的正確性,轉向評估模型是否知道何時應避免回答以及如何主動尋求可靠證據。

來源

來源:Hugging Face / 論文來源