中文内容

已翻译official company source英文原文2026-01-16

2026 年 1 月 22 日研究

D4RT：教会 AI 以四维方式看世界

Guillaume Le Moing 和 Mehdi S. M. Sajjadi

An image showing two people in a martial arts studio (dojo) practicing judo or jiu-jitsu. They are mid-motion in a grappling hold, surrounded by a vibrant, rainbow-colored light trail that follows their movement path. The background is a cl

每当我们观察世界时，都会完成一项非凡的记忆与预测任务。我们看到并理解事物在某一时刻的状态、片刻之前的状态，以及接下来将要呈现的状态。我们关于世界的心理模型维持着对现实的持续表征，并利用这一模型对过去、现在和未来之间的因果关系作出直观判断。

为了帮助机器像我们一样观察世界，我们可以为它们配备摄像头，但这只解决了输入问题。要理解这些输入，计算机必须解决一个复杂的反问题：从一段视频——也就是一系列平面的 2D 投影——中恢复或理解运动中的丰富、立体的 3D 世界。

今天，我们推出 D4RT（Dynamic 4D Reconstruction and Tracking），这是一种新的 AI 模型，它将动态场景重建统一到一个高效框架中，使我们更接近人工智能的下一个前沿：对动态现实的全面感知。

第四维的挑战

为了理解 2D 视频中捕捉到的动态场景，AI 模型必须跟踪每个物体的每一个像素在空间三维以及时间这一第四维中的运动。此外，它还必须将这种运动与摄像机运动区分开来，即使物体相互遮挡或完全离开画面，也要保持连贯的表征。传统上，要从 2D 视频中捕捉这种级别的几何结构和运动，需要计算密集型流程，或由多个专用 AI 模型拼接而成的体系——有的用于深度，有的用于运动或摄像机角度——结果是 AI 重建速度缓慢且碎片化。

D4RT 的简化架构和新颖查询机制使其处于 4D 重建的前沿，同时效率比以往方法最高提升 300 倍——速度足以用于机器人、增强现实等实时应用。

D4RT 的工作原理：基于查询的方法

D4RT 采用统一的编码器-解码器 Transformer 架构。编码器首先将输入视频处理为场景几何结构与运动的压缩表示。不同于为不同任务采用独立模块的旧系统，D4RT 通过一种灵活的查询机制，仅计算所需内容，该机制围绕一个基础问题展开：

“在任意时间、从选定摄像机视角观察，视频中的某个给定像素位于 3D 空间中的什么位置？”

基于我们此前的工作，一个轻量级解码器随后查询该表示，以回答所提出问题的具体实例。由于查询彼此独立，它们可以在现代 AI 硬件上并行处理。这使 D4RT 极其快速且具备可扩展性，无论是跟踪少数点，还是重建整个场景。

D4RT 结合了一个强大的编码器和一个轻量级解码器：前者构建对视频丰富、全局的理解，后者并行回答数千个查询。通过提出具体问题——确定源像素在目标时间和摄像机视角中的位置——该模型能够通过单一而灵活的接口，高效解决跟踪、深度估计和姿态估计等多种任务。

能力：快速、准确的 4D 理解

借助这种灵活的表述方式，模型现在可以解决多种 4D 任务，包括：

点跟踪：通过查询某个像素在不同时间步的位置，D4RT 可以预测其 3D 轨迹。重要的是，即使物体在视频的其他帧中不可见，模型也无需其可见即可作出预测。
点云重建：通过固定时间和摄像机视角，D4RT 可以直接生成场景的完整 3D 结构，从而省去单独的摄像机估计或逐视频迭代优化等额外步骤。
摄像机姿态估计：通过从不同视角生成并对齐同一时刻的 3D 快照，D4RT 可以轻松恢复摄像机的轨迹。

正如底层技术报告所详述的，D4RT 在广泛的 4D 重建任务中优于以往方法。定性比较显示，其他方法在处理动态物体时会遇到困难——常常复制这些物体，或完全无法重建它们——而 D4RT 能对运动中的世界保持稳定、连续的理解。

关键在于，D4RT 的精度并不是以牺牲效率为代价。在测试中，它比此前最先进方法快 18 倍至 300 倍。例如，D4RT 在单个 TPU 芯片上大约 5 秒即可处理一段一分钟视频。此前最先进的方法完成同一任务可能需要长达 10 分钟——相当于提升 120 倍。

第 1 张，共 3 张

D4RT_blog_figure_3_point-cloud_light_16x9 — 在 MPI Sintel 基准测试中进行评估时，该基准包含具有快速运动模糊和非刚性形变的复杂合成场景；与近期强基线相比，D4RT 展现出更高的保真度。这凸显了该模型即使在物体或摄像机快速穿过场景时，也能准确重建几何结构的能力。

D4RT_blog_figure_3_point-cloud_dark_16x9 — 在 MPI Sintel 基准测试中进行评估时，该基准包含具有快速运动模糊和非刚性形变的复杂合成场景；与近期强基线相比，D4RT 展现出更高的保真度。这凸显了该模型即使在物体或摄像机快速穿过场景时，也能准确重建几何结构的能力。

D4RT_blog_figure_3_point-tracking_light_16x9 — 使用 Aria Digital Twin 数据集中的智能眼镜素材，D4RT 在 3D 点跟踪方面取得顶级表现。这验证了该模型在真实家庭环境中对复杂自我运动和遮挡的稳健处理能力。

D4RT_blog_figure_3_point-tracking_dark_16x9 — 使用 Aria Digital Twin 数据集中的智能眼镜素材，D4RT 在 3D 点跟踪方面取得顶级表现。这验证了该模型在真实家庭环境中对复杂自我运动和遮挡的稳健处理能力。

D4RT_blog_figure_3_camera-pose_light_16x9 — 在 RE10k 数据集的多样化室内外场景上评估摄像机姿态估计时，D4RT 获得了最高 AUC 分数。该指标用于跟踪估计姿态落入一系列严格精度阈值范围内的频率，体现了该模型无需昂贵的测试时优化即可锁定稳定几何结构的能力。

D4RT_blog_figure_3_camera-pose_dark_16x9 — 在 RE10k 数据集的多样化室内外场景上评估摄像机姿态估计时，D4RT 获得了最高 AUC 分数。该指标用于跟踪估计姿态落入一系列严格精度阈值范围内的频率，体现了该模型无需昂贵的测试时优化即可锁定稳定几何结构的能力。

下游应用

D4RT 表明，在 4D 重建中我们不必在准确性和效率之间二选一。其灵活的基于查询的系统能够实时捕捉我们的动态世界，为下一代空间计算铺平道路。这包括：

机器人：机器人需要在由移动的人和物体构成的动态环境中导航。D4RT 可以提供安全导航和灵巧操作所需的空间感知能力。
增强现实（AR）：为了让 AR 眼镜将数字物体叠加到现实世界中，它们需要即时、低延迟地理解场景几何结构。D4RT 的高效率有助于让设备端部署成为切实可行的现实。
世界模型：通过有效区分摄像机运动、物体运动和静态几何结构，D4RT 让我们距离拥有物理现实真实“世界模型”的 AI 更近一步——这是通往 AGI 道路上的必要一步。

我们正在继续探索该模型在机器人、增强现实及更多领域的能力与应用潜力。

阅读我们的技术报告

访问我们的项目网站

Gemini Robotics 1.5 将 AI 智能体带入物理世界

2025 年 9 月模型

了解更多

推出 Veo 3.1 及先进创意能力

2025 年 10 月模型

了解更多

Genie 3：世界模型的新前沿

2025 年 8 月模型

了解更多

D4RT：教会 AI 以四维方式看世界

中文内容

D4RT：教会 AI 以四维方式看世界

第四维的挑战

D4RT 的工作原理：基于查询的方法

能力：快速、准确的 4D 理解

下游应用

相关文章

Gemini Robotics 1.5 将 AI 智能体带入物理世界

推出 Veo 3.1 及先进创意能力

Genie 3：世界模型的新前沿

原文标题