LLM 作為評審的幾何學:為何 LLM 間共識並非人類對齊
研究論文探討 LLM 作為評審的幾何結構,指出 LLM 間的共識強於與人類的共識。論文透過測量四個幾何量,包括分數擴展、有效秩、與人類子空間的主角度以及評審與人類的堆疊相關性,在四個社區建構的印度語數據集、八種印度語和 41 個 LLM 評審上進行測試。結果發現,在主觀評分標準上,評審使用的分數範圍不到人類的一半,且評估軸與人類近乎正交。LLM 間的相關性約為 0.35,而 LLM 與人類的相關性僅約 0.27 至 0.32。在有可驗證事實答案的評分標準上,這些診斷指標回落到人類範圍。微調和偏好優化能恢復分數擴展,但幾乎不改變軸方向。只有基於人類錨定集的事後校準能改善所有社區健康評分標準,使校準後的 24B 印度語評審相關性達到 0.184,優於 GPT-5.5 的 0.123,但仍低於人類可靠性。論文主張,LLM 間共識應僅在通過直接幾何檢查時才被視為人類對齊的證據。
來源:網頁來源