Mellum 2 技術報告
研究論文提出Mellum 2,這是一個開源的12B參數混合專家語言模型,擁有每個token 2.5B的活躍參數。該模型專門針對軟體工程任務設計,涵蓋代碼生成與編輯、調試、多步推理、工具使用、代理編碼和對話式編程輔助等功能。Mellum 2是先前Mellum模型的後繼者,後者是一個專注於代碼補全的4B密集模型。架構基於混合專家系統,使用64個專家中的8個活躍專家,並結合了分組查詢注意力、滑動窗口注意力和多token預測頭。預訓練數據約10.6萬億token,通過三階段課程學習優化,使用FP8混合精度和Muon優化器。模型擴展到128K上下文窗口,並通過監督微調和RLVR進行後訓練,發布了Instruct和Thinking兩個變體。基準測試顯示,Mellum 2在4B-14B參數範圍內的開源模型中表現競爭,同時保持較低的計算成本。所有檢查點在Apache 2.0許可下發布。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Mellum2 Technical Report