局部性不意味著可達性:區塊稀疏因果注意力的邊界修復
研究論文探討稀疏因果注意力中序列局部性與注意力圖可達性的不匹配問題。論文指出,在固定區塊因果注意力中,兩個相鄰的token可能在所有深度的注意力圖中斷開,這與序列局部性的直覺相悖。作者通過結構依賴集形式化了這種邊界偽影,並展示了架構層面的邊界複製分離,其中目標表示僅依賴於其所在區塊前綴的token。進一步推導了相位條件覆蓋函數,表明可達性取決於源目標距離和目標在區塊內的偏移。這些覆蓋定律預測稀疏模式何時會失敗、何時修復有幫助,以及為何滑動窗口注意力與邊界修復不可互換。論文將Boundary Bridge Attention作為構造性見證,它保留固定區塊路徑並在邊界附近添加零額外參數的輔助因果邊界,使用共享投影。控制實驗在1024-token序列上顯示收益集中在覆蓋對齊的診斷中。作為外部有效性證據,固定檢查點的8K-token Qwen2.5-7B模型探測顯示相同的覆蓋不可比性模式。這項貢獻提供了一個理論指導的診斷框架,用於分析區塊稀疏因果注意力中的局部性-可達性不匹配,並包含相位條件覆蓋分析和最小構造修復。
來源:網頁來源
- 網頁來源Spectral Asymptotics of Neural Network Loss Landscapes: An Exact Decomposition of the Curvature Exponent
- 網頁來源Uncovering Temporal Framing in the News
- 網頁來源Regime-Arrival Uncertainty in Generalization Bounds under Distribution Shift
- 網頁來源The Deterministic Horizon: When Extended Reasoning Fails and Tool Delegation Becomes Necessary
- 網頁來源Representation Collapse in Sequential Post-Training of Large Language Models
- 網頁來源Physics from Video: Identifiability of Time-Invariant Second-Order ODEs under Minimal Trajectory Conditions
- 網頁來源Locality Does Not Imply Reachability: Boundary Repair in Block-Sparse Causal Attention