研究06/02 24:13

VisualThink-VLA：高效低延遲的視覺中間推理框架

研究論文提出VisualThink-VLA框架，旨在解決視覺語言動作策略中中間推理的挑戰。傳統的文本思維鏈在具身控制中可能干擾動作預測，且自回歸文本解碼增加延遲，不適合即時閉環執行。VisualThink-VLA透過緊湊的視覺證據接口引導動作預測，保留空間精度同時避免解碼開銷。此外，它採用選擇性路由機制學習視覺證據詞元，實現低延遲推理和高容量專業化。論文還引入VisualEvidence-Kit，這是一個監督與審計資源，用於建構VisualEvidence-Set以進行路由監督和反事實忠實度測試。在多個基準測試和真實機器人評估中，VisualThink-VLA在大多數基準測試上達到最高成功率，並將推理增強基線的多秒延遲降低到亞秒範圍。例如，在BridgeData V2上，步進延遲從8.377秒降低到0.367秒，實現22.8倍的速度提升。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies