研究06/02 24:13

Mellum 2 技術報告

研究論文提出Mellum 2，這是一個開源的12B參數混合專家語言模型，擁有每個token 2.5B的活躍參數。該模型專門針對軟體工程任務設計，涵蓋代碼生成與編輯、調試、多步推理、工具使用、代理編碼和對話式編程輔助等功能。Mellum 2是先前Mellum模型的後繼者，後者是一個專注於代碼補全的4B密集模型。架構基於混合專家系統，使用64個專家中的8個活躍專家，並結合了分組查詢注意力、滑動窗口注意力和多token預測頭。預訓練數據約10.6萬億token，通過三階段課程學習優化，使用FP8混合精度和Muon優化器。模型擴展到128K上下文窗口，並通過監督微調和RLVR進行後訓練，發布了Instruct和Thinking兩個變體。基準測試顯示，Mellum 2在4B-14B參數範圍內的開源模型中表現競爭，同時保持較低的計算成本。所有檢查點在Apache 2.0許可下發布。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Mellum2 Technical Report