研究06/01 12:09

語言模型需要睡眠：學習自我修改與鞏固記憶

研究論文在 HuggingFace 上發布，標題為『語言模型需要睡眠：學習自我修改與鞏固記憶』。論文指出，現有大型語言模型在需要即時預測或上下文學習的任務中表現良好，但缺乏持續學習的能力，無法將短期上下文知識有效轉移到長期參數中。受人類睡眠學習過程啟發，研究者引入一個『睡眠』範式，允許模型持續學習、蒸餾短期脆弱記憶為穩定的長期知識，並通過『做夢』過程遞迴自我改進。睡眠分為兩個階段：第一是記憶鞏固，這是一個向上蒸餾過程，稱為知識播種，將較小自我的記憶蒸餾到較大網路中，以提供更多容量同時保留知識。作為概念驗證，論文提出一個新的廣義蒸餾過程，結合基於策略的蒸餾和強化學習的模仿學習。第二是做夢，一個自我改進階段，模型使用強化學習生成合成數據課程，用於演練新知識和精煉現有能力，無需人類監督。實驗在長期 horizon、持續學習、知識納入和少樣本泛化任務上進行，結果支持睡眠階段的重要性。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories
網頁來源Domain Adaptation and Reasoning Frameworks in Language Models: A Controlled Experiment with Historical Cosmology