中文内容

已翻译official company source英文原文2025-05-20

我们构建通用AI助手的愿景

2025年5月20日

我们正在将 Gemini 扩展为一种世界模型，使其能够通过模拟现实世界的各个方面来制定计划并构想全新体验。

Demis Hassabis

CEO of Google DeepMind

Abstract illustration of glowing rectangles near a glowing white dot

In this story

Project Astra 的实时能力
能够为您处理多任务的 AI

在过去十年中，我们为现代人工智能时代奠定了诸多基础，从首创所有大语言模型所基于的 Transformer 架构，到开发能够像 AlphaGo 和 AlphaZero 一样学习与规划的智能体系统。

我们已将这些技术应用于量子计算、数学、生命科学与算法发现等领域，并取得突破性进展。我们持续深耕基础研究的广度与深度，致力于研发实现通用人工智能（AGI）所需的下一项重大突破。

正因如此，我们正致力于将我们最强大的多模态基础模型 Gemini 2.5 Pro 升级为“世界模型”，使其能够像大脑一样，通过理解和模拟世界的方方面面来制定计划并构想全新体验。

我们在此方向上已稳步推进一段时间，从开创性地训练智能体掌握围棋和《星际争霸》等复杂游戏，到构建 Genie 2，它能够仅凭单张图像提示生成可供交互的 3D 模拟环境。

如今，我们已能看到这些能力初露端倪：Gemini 能够运用世界知识和推理能力来表征与模拟自然环境，Veo 对直观物理规律有着深刻理解，以及 Gemini Robotics 能够教导机器人抓取物体、遵循指令并实时灵活调整。

将 Gemini 打造为世界模型是开发一种全新、更通用且更实用的人工智能的关键一步——即通用 AI 助手。这种 AI 具备智能，能够理解你所处的上下文环境，并能代表你在任何设备上进行规划与采取行动。

将 Project Astra 的实时能力引入我们的产品

我们的最终愿景是将 Gemini 应用打造为一款通用 AI 助手，它将为我们处理日常事务，代劳繁琐的管理工作，并主动呈现令人惊喜的新推荐——从而提升我们的效率，丰富我们的生活。

这一切始于我们去年在研究原型 Project Astra 中首次探索的各项能力，例如视频理解、屏幕共享和记忆。

在过去的一年中，我们一直在将此类能力整合至 Gemini Live，以便让更多人如今即可体验。我们持续不懈地进行优化，并探索前沿创新。例如，我们通过原生音频技术升级了语音输出，使其更加自然，同时优化了记忆功能并新增了计算机控制能力。

我们目前正在从受信任的测试人员处收集有关这些功能的反馈，并正致力于将其引入 Gemini Live、搜索的新体验、面向开发者的 Live API 以及眼镜等新形态设备中。

在此过程的每一步中，安全与责任始终是我们工作的核心。我们近期开展了一项大型研究项目，探讨与先进 AI 助手相关的伦理问题，这项工作将持续指导我们的研究、开发与部署。

构建能为你处理多任务的 AI

我们还一直在通过 Project Mariner 探索智能体能力如何帮助人们处理多任务。这是一个研究原型，旨在从浏览器起步，探索未来人类与智能体交互的方式。

自去年 12 月推出 Project Mariner 以来，我们一直与一组受信任的测试人员密切合作，收集反馈并改进其实验性功能。

Project Mariner 现已包含一套智能体系统，可同时完成多达十项不同的任务。这些智能体可协助您查询信息、进行预订、购物、开展研究等——所有操作均可同步进行。

更新后的 Project Mariner 现已面向美国地区的 Google AI Ultra 订阅用户开放。我们正在将其计算机操作能力集成至 Gemini API，并计划在今年全年逐步将其更多功能引入各类 Google 产品中。如需了解我们在搜索和 Gemini 应用中的智能体能力，请阅读更多详情。

凭借此项进展以及我们所有的突破性工作，我们正致力于构建更加个性化、主动且强大的 AI，以丰富我们的生活、加快科学进步的步调，并开启一个充满探索与惊叹的全新黄金时代。

构建通用人工智能助手的愿景

中文内容

我们构建通用AI助手的愿景

将 Project Astra 的实时能力引入我们的产品

构建能为你处理多任务的 AI

原文标题