研究06/02 24:11

VLMs 何時不回答空間問題？新研究挑戰現有假設

在 HuggingFace 發布的研究論文中，學者們提出了一個新的評估框架 SpatialUncertain，以挑戰現有視覺語言模型（VLMs）在空間推理評估中的假設。論文探討指出，真實世界中的視覺觀測存在內在局限性，例如遮擋可能使物體不可見，而視角模糊則可能產生誤導性的幾何線索。然而，現有的空間推理基準測試通常假設觀測足夠可靠，僅專注於模型是否能產生正確答案，而非是否認識到問題在某些情況下無法回答。為此，研究構建了可控制的評估框架，設計了在清晰觀測下可回答、但在引入遮擋或視角模糊挑戰時需避免回答的空間問題，並評估模型能否識別額外的視角以解決模糊性。結果顯示，在多個前沿開源和閉源 VLMs 中，模型表現出兩種一致的失敗模式：一是過度自信地回答，即使視覺證據不完整或誤導，平均準確率在遮擋下約為 30%，在視角模糊下低於 10%；二是即使有額外視角可用，一些模型在識別哪些視角能提供可靠證據時表現接近隨機。研究呼籲未來評估應超越答案的正確性，轉向評估模型是否知道何時應避免回答以及如何主動尋求可靠證據。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?