与 3D 物理环境交互、适当不同机器东谈主形态并履行复杂任务的通用操作计策现金九游体育app平台,一直是机器东谈主限制的经久追求。
现存的通用操作模子局限于 2D 输入,穷乏鲁棒的 3D 感知才调,在面对单视角视差、光照变化和环境不一致等视觉外不雅变化时推崇较差,适度了其在现实寰球中的通用性。
而东谈主类具有通用且结构化的空间融会才调,粗略在不同的场景中邃密准确的操作物体。因此,现时限制的一个错误问题是怎样灵验地为 VLA 模子赋予通用的 3D 物理寰球空间领会才调?
来自上海 AI Lab、TeleAI、上科大等机构的斟酌员提 SpatialVLA ——

百万真机数据预西宾的空间具身通用操作模子,全面探究了空间表征在具身通用操作模子中的后劲,在 zero-shot 泛化胁制、场景高效微调、空间领会等多项评估中获取了开端进的性能。
通用操作计策靠近的挑战
近期视觉 - 话语 - 动作模子的进展为构建此类通用计策提供了有远景的范式,相配是通过在各样化机器东谈主数据上西宾视觉 - 话语模子。磋商的最新斟酌包括 OpenVLA、RDT、π 0 等。可是现存的 VLA 模子大多局限于 2D 输入,穷乏谨慎的 3D 感知才调,且在面对单视角视差差距、光照变化和环境不一致等视觉外不雅变化时推崇较差,适度了其在现实寰球中的可靠性。东谈主类本能地形成结构化的空间融会模子,粗造地在直不雅且个性化的责任空间中组织物体进行操作。
因此,现时限制的一个错误问题是怎样灵验地为 VLA 模子赋予通用的 3D 物理寰球空间领会才调?
可是,开垦具有 3D 空间智能的通用机器东谈主计策靠近两个错误挑战:
领先,由于相机传感器和安设位置(举例腕部安设与第三方视角)不同,机器东谈主在各个形态下的不雅察数据穷乏 3D 对王人,形成了 3D 不雅察空间未合并校准的。
其次,机器东谈主推崇出各样的动作特质,源自解放度、素养胁制器、责任空间成就和任务复杂性的互异,使得学习通用空间动作变得复杂。

空间具身通用操作模子
为应付以上挑战,本文提议了一个通用机器东谈主计策 SpatialVLA,通过探索对王人的空间默示,将 VLA 模子赋予 3D 空间智能。给定图像不雅察和任务指示,模子期骗 Ego3D 位置编码惩处图像,并自总结地算计空间动作 token,随后解码为连气儿动作 At 进行机器东谈主胁制 :
Ego3D Position Encoding: SpatialVLA 通过 Ego3D 位置编码感知 3D 寰球,将 3D 空间高下文与语义特征交融,排斥了对特定机器东谈主相机校准的需求,具有普通的适用性。
Adaptive Spatial Action Grids:关于机器东谈主动作,SpatialVLA 摄取自适当动作网格统一动作空间,将连气儿动作龙套化为基于机器东谈主任务数据的自适当网格,使得不同机器东谈主之间的动作与物理寰球的 3D 结构对王人。
Spatial Embedding Adaption: 在后西宾中,空间动作网格通过自适当网格重新龙套化,展现了在新机器东谈主环境中适当的超卓才调,提供了一种机动且灵验的机器东谈主特定后期西宾要津。

具体来说,关于给定一个图像不雅察 和任务指示 L,模子通过 Ego3D 位置编码惩处图像,并自总结地算计空间动作 token,随后将这些 token 解码为连气儿动作 At 用于机器东谈主胁制。
该模子包含三个错误组件:(1)SigLIP 视觉编码器索要 2D 语义特征,随后通过 Ego3D 位置编码将其与 3D 空间高下文相交融;(2)连气儿的 7D 动作 Δ T, Δ R, G 通过查询自适当动作网格转换为 3 个空间动作 token,并自总结地算计并解码以用于机器东谈主胁制;(3)在后期西宾中,动作网格和空间镶嵌凭证新的高斯散播进行蜕变,以便灵验地迁徙到全新的机器东谈主平台。
团队发现,所提议的 SpatialVLA 模子以通用且与机器东谈主无关的形式桥接了不雅察输入和动作输出,探索强大的 3D 空间感知默示,从而增强了 VLA 模子的鲁棒性与通用性。
实验考据

团队在 7 种不同的机器东谈主学习场景中评估 SpatialVLA 的才调,包括 24 个果真机器东谈主任务和 3 个仿真环境 Simpler Env Google Robot、Simpler Env WidowX、LIBERO。
重心熟识模子的三个错误才调:zero-shot 泛化胁制、新场景高效微斡旋空间领会才调。同期,团队还进行了详备的消融斟酌,考据了筹备方案。模子在多项评估中获取了开端进的性能。
1. zero-shot 泛化胁制
SimplerEnv Benchmark SOTA 性能:包含 WidowX 和 Google 机器东谈主成就,提供各样的操作场景,并涵盖不同的光照、心情、纹理和机器东谈主录像头位姿。团队将模子与最新的通用操作计策进行比较,包括 RT-1、RT-1-X、RT-2-X、Octo、OpenVLA、HPT、TraceVLA 和 RoboVLM 等。
SpatialVLA 在 zero-shot 和微调 setting 中均表展示了更强的泛化才协调鲁棒性,尤其在具有外不雅各样的机器东谈主操作任务和环境条目下。
关于 WidowX 成就,SpatialVLA 高出了 RoboVLM,获取了 34.4% 和 42.7% 的合座见着力。在 BridgeV2 数据集上微调后,在"将茄子放入黄色篮子"任务中达到了 100% 的见着力,暴露了模子出色的零样本泛化操作才调。

△Figure 1. SimplerEnv evaluation across different policies on Google Robot tasks.

△Figure 2. SimplerEnv evaluation across different policies on WidowX Robot tasks.
WidowX 机器东谈主平台开箱即用:团队还在果真的 WidowX 机器东谈主平台上进行实验,涵盖话语绑定、语义领会和素养骚动等任务。总体而言,SpatiaVLA 在未见过的场景、物体、话语绑定和动态动作中推崇出了较高的平均见着力,粗略凭证教唆中的心情面目准确地履行任务,高出了 OpenVLA 和其他通用计策展示了强大的泛化才调操作和指示跟班才调。

△Figure 3. Zero-shot Robot Control Evaluation on WidowX Robot.
2. 新场景高效微调
Franka 高效微调,LIBERO Benchmark SOTA 性能:团队在 13 个 Franka 机械臂平台上 从 1)拾取、扬弃、推拉和关闭基本任务;2)指示跟班;3)夹杂多任务三个角度来考据模子的操作性能,与主流计策(包括 Diffusion Policy、Octo 和 OpenVLA)进行比较。
评估后果展示了其行为通用机器东谈主胁制计策的多功能性,在多种任务中推崇出色,并可灵验行为新机器东谈主微调的运转换。同期 SpatialVLA 粗略灵验适当 LIBERO 环境中的任务,获取了 78.1% 的最高平均见着力,并在总计无 state 输入的计策中名按序一。

△Figure 4. Adapting to New Robot Setups on Franka Robot.

△Figure 5. LIBERO Simulation Benchmark Results.
3. 空间领会才调评估
团队从三类机器东谈主赞助评估的空间领会才调:Franka 机器东谈主微调, WidowX 机器东谈主零样本泛化,以及 Libero-Spatial 微调。任务展示了不同的空间复杂性,任务触及教唆领会,深度变化感知,物体布局变化。与现存计策比拟,SpatialVLA 展现了优胜的空间领会才调,在 Franka 任务 #1 中获取了 73% 的准确率,显赫栽培了在 WidowX 零 -shot 任务(任务 #2-4)中的操作才调,尤其是在复杂的位置变化上。在 LIBERO-Spatial 任务中,SpatiaVLA 获取了 88.2% 的见着力。像 Octo、Diffusion Policy 和 OpenVLA 等计策,由于穷乏深度信息的集成,在适当空间布局变化时靠近较大挑战,其见着力长期低于 50%。因此,团队建议将 3D 信息,如深度或点云,集成到 VLA 框架中,以提高模子在空间布局变化中的适当性和鲁棒性。

△Figure 6. Spatial Understanding Capability Evaluation.

Huggingface: https://huggingface.co/collections/IPEC-COMMUNITY
西宾代码: https://github.com/SpatialVLA/SpatialVLA
技俩主页: https://spatialvla.github.io
论文地址: https://arxiv.org/abs/2501.15830
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿践诺
附上论文 / 技俩主页集会,以及磋商形式哦
咱们会(尽量)实时文书你

一键热心 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「预防心」
接待在指摘区留住你的念念法!现金九游体育app平台
