元鉴
返回中文阅读流

Google DeepMind Blog

构建通用人工智能助手的愿景

我们将扩展 Gemini,使其成为能够模拟世界各方面、制定计划并构想新体验的世界模型。

中文内容

已翻译official company source英文原文2025-05-20

我们构建通用AI助手的愿景

2025年5月20日

·

我们正在将 Gemini 扩展为一种世界模型,使其能够通过模拟现实世界的各个方面来制定计划并构想全新体验。

Abstract illustration of glowing rectangles near a glowing white dot
In this story
In this story
  • Project Astra 的实时能力
  • 能够为您处理多任务的 AI

在过去十年中,我们为现代人工智能时代奠定了诸多基础,从首创所有大语言模型所基于的 Transformer 架构,到开发能够像 AlphaGo 和 AlphaZero 一样学习与规划的智能体系统。

我们已将这些技术应用于量子计算、数学、生命科学与算法发现等领域,并取得突破性进展。我们持续深耕基础研究的广度与深度,致力于研发实现通用人工智能(AGI)所需的下一项重大突破。

正因如此,我们正致力于将我们最强大的多模态基础模型 Gemini 2.5 Pro 升级为“世界模型”,使其能够像大脑一样,通过理解和模拟世界的方方面面来制定计划并构想全新体验。

我们在此方向上已稳步推进一段时间,从开创性地训练智能体掌握围棋和《星际争霸》等复杂游戏,到构建 Genie 2,它能够仅凭单张图像提示生成可供交互的 3D 模拟环境。

如今,我们已能看到这些能力初露端倪:Gemini 能够运用世界知识和推理能力来表征与模拟自然环境,Veo 对直观物理规律有着深刻理解,以及 Gemini Robotics 能够教导机器人抓取物体、遵循指令并实时灵活调整。

将 Gemini 打造为世界模型是开发一种全新、更通用且更实用的人工智能的关键一步——即通用 AI 助手。这种 AI 具备智能,能够理解你所处的上下文环境,并能代表你在任何设备上进行规划与采取行动。

将 Project Astra 的实时能力引入我们的产品

我们的最终愿景是将 Gemini 应用打造为一款通用 AI 助手,它将为我们处理日常事务,代劳繁琐的管理工作,并主动呈现令人惊喜的新推荐——从而提升我们的效率,丰富我们的生活。

这一切始于我们去年在研究原型 Project Astra 中首次探索的各项能力,例如视频理解、屏幕共享和记忆。

在过去的一年中,我们一直在将此类能力整合至 Gemini Live,以便让更多人如今即可体验。我们持续不懈地进行优化,并探索前沿创新。例如,我们通过原生音频技术升级了语音输出,使其更加自然,同时优化了记忆功能并新增了计算机控制能力。

我们目前正在从受信任的测试人员处收集有关这些功能的反馈,并正致力于将其引入 Gemini Live、搜索的新体验、面向开发者的 Live API 以及眼镜等新形态设备中。

在此过程的每一步中,安全与责任始终是我们工作的核心。我们近期开展了一项大型研究项目,探讨与先进 AI 助手相关的伦理问题,这项工作将持续指导我们的研究、开发与部署。

构建能为你处理多任务的 AI

我们还一直在通过 Project Mariner 探索智能体能力如何帮助人们处理多任务。这是一个研究原型,旨在从浏览器起步,探索未来人类与智能体交互的方式。

自去年 12 月推出 Project Mariner 以来,我们一直与一组受信任的测试人员密切合作,收集反馈并改进其实验性功能。

Project Mariner 现已包含一套智能体系统,可同时完成多达十项不同的任务。这些智能体可协助您查询信息、进行预订、购物、开展研究等——所有操作均可同步进行。

更新后的 Project Mariner 现已面向美国地区的 Google AI Ultra 订阅用户开放。我们正在将其计算机操作能力集成至 Gemini API,并计划在今年全年逐步将其更多功能引入各类 Google 产品中。如需了解我们在搜索和 Gemini 应用中的智能体能力,请阅读更多详情。

凭借此项进展以及我们所有的突破性工作,我们正致力于构建更加个性化、主动且强大的 AI,以丰富我们的生活、加快科学进步的步调,并开启一个充满探索与惊叹的全新黄金时代。

原文标题

Our vision for building a universal AI assistant