返回事件流

超越回憶:行為規範作為AI個人化的解釋層

研究論文提出行為規範(Behavioral Specification)作為AI個人化的解釋層,旨在解決AI代理代表用戶決策時的對齊問題。論文引入表徵準確性(representational accuracy)概念,用於測量系統捕捉用戶解釋的忠實度。研究實現了一個參考實踐,將用戶數據壓縮為解釋模式,作為語言模型的上下文。在原型基準測試中,團隊使用校準的5個LLM法官評分系統,獨立測試行為規範,並與多種上下文條件組合,包括完整原始語料、提取事實以及四個商業記憶系統(Mem0、Letta、Supermemory、Zep)。在14個公開領域自傳語料的評估中,行為規範整體提升了表徵準確性,並幾乎消除了模型猶豫。它以約25倍更少的上下文成本,恢復了原始語料的大部分效果。行為規範將受試者提升到共同預測水平,無論預訓練基線如何;絕對提升在基線最低時最大,表明相關人群是預訓練中未充分代表的人群。在需要解釋的問題上,提升最為顯著,提供解釋層使模型行為超越提取事實或原始語料;但在需要回憶的問題上,解釋層可能產生干擾。論文結論指出,表徵準確性與回憶是不同的概念,人類-AI對齊依賴於用戶被代表的準確性,而表徵準確性使這種對齊得以測試。

來源

來源:Hugging Face / 論文來源