研究06/03 24:09

LLM 作為評審的幾何學：為何 LLM 間共識並非人類對齊

研究論文探討 LLM 作為評審的幾何結構，指出 LLM 間的共識強於與人類的共識。論文透過測量四個幾何量，包括分數擴展、有效秩、與人類子空間的主角度以及評審與人類的堆疊相關性，在四個社區建構的印度語數據集、八種印度語和 41 個 LLM 評審上進行測試。結果發現，在主觀評分標準上，評審使用的分數範圍不到人類的一半，且評估軸與人類近乎正交。LLM 間的相關性約為 0.35，而 LLM 與人類的相關性僅約 0.27 至 0.32。在有可驗證事實答案的評分標準上，這些診斷指標回落到人類範圍。微調和偏好優化能恢復分數擴展，但幾乎不改變軸方向。只有基於人類錨定集的事後校準能改善所有社區健康評分標準，使校準後的 24B 印度語評審相關性達到 0.184，優於 GPT-5.5 的 0.123，但仍低於人類可靠性。論文主張，LLM 間共識應僅在通過直接幾何檢查時才被視為人類對齊的證據。

來源：網頁來源