中文内容
D4RT:教会 AI 以四维方式看世界
Guillaume Le Moing 和 Mehdi S. M. Sajjadi
每当我们观察世界时,都会完成一项非凡的记忆与预测任务。我们看到并理解事物在某一时刻的状态、片刻之前的状态,以及接下来将要呈现的状态。我们关于世界的心理模型维持着对现实的持续表征,并利用这一模型对过去、现在和未来之间的因果关系作出直观判断。
为了帮助机器像我们一样观察世界,我们可以为它们配备摄像头,但这只解决了输入问题。要理解这些输入,计算机必须解决一个复杂的反问题:从一段视频——也就是一系列平面的 2D 投影——中恢复或理解运动中的丰富、立体的 3D 世界。
今天,我们推出 D4RT(Dynamic 4D Reconstruction and Tracking),这是一种新的 AI 模型,它将动态场景重建统一到一个高效框架中,使我们更接近人工智能的下一个前沿:对动态现实的全面感知。
第四维的挑战
为了理解 2D 视频中捕捉到的动态场景,AI 模型必须跟踪每个物体的每一个像素在空间三维以及时间这一第四维中的运动。此外,它还必须将这种运动与摄像机运动区分开来,即使物体相互遮挡或完全离开画面,也要保持连贯的表征。传统上,要从 2D 视频中捕捉这种级别的几何结构和运动,需要计算密集型流程,或由多个专用 AI 模型拼接而成的体系——有的用于深度,有的用于运动或摄像机角度——结果是 AI 重建速度缓慢且碎片化。
D4RT 的简化架构和新颖查询机制使其处于 4D 重建的前沿,同时效率比以往方法最高提升 300 倍——速度足以用于机器人、增强现实等实时应用。
D4RT 的工作原理:基于查询的方法
D4RT 采用统一的编码器-解码器 Transformer 架构。编码器首先将输入视频处理为场景几何结构与运动的压缩表示。不同于为不同任务采用独立模块的旧系统,D4RT 通过一种灵活的查询机制,仅计算所需内容,该机制围绕一个基础问题展开:
“在任意时间、从选定摄像机视角观察,视频中的某个给定像素位于 3D 空间中的什么位置?”
基于我们此前的工作,一个轻量级解码器随后查询该表示,以回答所提出问题的具体实例。由于查询彼此独立,它们可以在现代 AI 硬件上并行处理。这使 D4RT 极其快速且具备可扩展性,无论是跟踪少数点,还是重建整个场景。


能力:快速、准确的 4D 理解
借助这种灵活的表述方式,模型现在可以解决多种 4D 任务,包括:
- 点跟踪:通过查询某个像素在不同时间步的位置,D4RT 可以预测其 3D 轨迹。重要的是,即使物体在视频的其他帧中不可见,模型也无需其可见即可作出预测。
- 点云重建:通过固定时间和摄像机视角,D4RT 可以直接生成场景的完整 3D 结构,从而省去单独的摄像机估计或逐视频迭代优化等额外步骤。
- 摄像机姿态估计:通过从不同视角生成并对齐同一时刻的 3D 快照,D4RT 可以轻松恢复摄像机的轨迹。
正如底层技术报告所详述的,D4RT 在广泛的 4D 重建任务中优于以往方法。定性比较显示,其他方法在处理动态物体时会遇到困难——常常复制这些物体,或完全无法重建它们——而 D4RT 能对运动中的世界保持稳定、连续的理解。
关键在于,D4RT 的精度并不是以牺牲效率为代价。在测试中,它比此前最先进方法快 18 倍至 300 倍。例如,D4RT 在单个 TPU 芯片上大约 5 秒即可处理一段一分钟视频。此前最先进的方法完成同一任务可能需要长达 10 分钟——相当于提升 120 倍。
下游应用
D4RT 表明,在 4D 重建中我们不必在准确性和效率之间二选一。其灵活的基于查询的系统能够实时捕捉我们的动态世界,为下一代空间计算铺平道路。这包括:
- 机器人:机器人需要在由移动的人和物体构成的动态环境中导航。D4RT 可以提供安全导航和灵巧操作所需的空间感知能力。
- 增强现实(AR):为了让 AR 眼镜将数字物体叠加到现实世界中,它们需要即时、低延迟地理解场景几何结构。D4RT 的高效率有助于让设备端部署成为切实可行的现实。
- 世界模型:通过有效区分摄像机运动、物体运动和静态几何结构,D4RT 让我们距离拥有物理现实真实“世界模型”的 AI 更近一步——这是通往 AGI 道路上的必要一步。
我们正在继续探索该模型在机器人、增强现实及更多领域的能力与应用潜力。