返回事件流

語言模型需要睡眠:學習自我修改與鞏固記憶

研究論文在 HuggingFace 上發布,標題為『語言模型需要睡眠:學習自我修改與鞏固記憶』。論文指出,現有大型語言模型在需要即時預測或上下文學習的任務中表現良好,但缺乏持續學習的能力,無法將短期上下文知識有效轉移到長期參數中。受人類睡眠學習過程啟發,研究者引入一個『睡眠』範式,允許模型持續學習、蒸餾短期脆弱記憶為穩定的長期知識,並通過『做夢』過程遞迴自我改進。睡眠分為兩個階段:第一是記憶鞏固,這是一個向上蒸餾過程,稱為知識播種,將較小自我的記憶蒸餾到較大網路中,以提供更多容量同時保留知識。作為概念驗證,論文提出一個新的廣義蒸餾過程,結合基於策略的蒸餾和強化學習的模仿學習。第二是做夢,一個自我改進階段,模型使用強化學習生成合成數據課程,用於演練新知識和精煉現有能力,無需人類監督。實驗在長期 horizon、持續學習、知識納入和少樣本泛化任務上進行,結果支持睡眠階段的重要性。

來源:Hugging Face / 論文來源