VisualThink-VLA:高效低延遲的視覺中間推理框架
研究論文提出VisualThink-VLA框架,旨在解決視覺語言動作策略中中間推理的挑戰。傳統的文本思維鏈在具身控制中可能干擾動作預測,且自回歸文本解碼增加延遲,不適合即時閉環執行。VisualThink-VLA透過緊湊的視覺證據接口引導動作預測,保留空間精度同時避免解碼開銷。此外,它採用選擇性路由機制學習視覺證據詞元,實現低延遲推理和高容量專業化。論文還引入VisualEvidence-Kit,這是一個監督與審計資源,用於建構VisualEvidence-Set以進行路由監督和反事實忠實度測試。在多個基準測試和真實機器人評估中,VisualThink-VLA在大多數基準測試上達到最高成功率,並將推理增強基線的多秒延遲降低到亞秒範圍。例如,在BridgeData V2上,步進延遲從8.377秒降低到0.367秒,實現22.8倍的速度提升。
來源
來源:Hugging Face / 論文來源