元鉴
返回中文阅读流

Google AI Blog

I/O 2026:欢迎来到代理式 Gemini 时代

Google I/O 最新动态:了解我们如何通过 Gemini 帮助你完成更多事务。

中文内容

已翻译official company source英文原文2026-05-19

I/O 2026:欢迎来到代理式 Gemini 时代

2026 年 5 月 19 日

·

以下是我们如何通过 Gemini 帮助你完成更多工作。

a series of colorful icons representing Google I/O against a black background
在这篇报道中
在这篇报道中
  • AI 与产品势头
  • 对话式 AI
  • 基础设施与创新
  • Gemini 模型
  • 智能体
  • 来自我们的智能体式 Gemini 时代的更多内容

编者按:以下是 Google 首席执行官 Sundar Pichai 在 Google I/O 2026 上发言的编辑后文字稿,并改编纳入了更多在台上发布的内容。请在我们的合集 中查看所有公告。

自上一次 I/O 以来,这是非凡的一年,是一段持续不断发布、技术进步和高速发展的时期。我们现在正处于 AI 周期的一个阶段,人们希望在他们每天使用的产品中看到价值。我们一直非常专注于这一点,而你们将在我们今天于 I/O 发布的产品和功能中看到这一点。

自我们将公司转向 AI-first 已经过去十年,我们仍然认为 AI 是推进我们使命、以规模化方式改善人们生活的最深远方式。这就是为什么我们一直采取一种差异化的全栈 AI 创新方法,从我们的定制芯片和安全基础,到世界一流的研究和模型,再到触达数十亿人的产品和平台。这种方法使我们能够以更快的速度迭代和创新,并以各种方式点亮公司的每一个部分。

令人难以置信的是,人们正在以各种方式使用 AI:无论是学生用 Gemini 应用准备期末考试,音乐家和艺术家将 Lyria、Veo 等生成式 AI 模型融入他们的创作流程,还是开发者编写代码并将自己的想法变为现实。

AI 在全技术栈中的发展势头

这些关于人们如何使用 AI 的故事,是衡量进展的最佳指标。要了解人们采用 AI 的规模,还有另一个很好的代理指标——token,即我们的模型所处理的数据基本单位,其中许多代表着一个正在被解决的问题。

两年前,我们在各个产品界面上每月处理 9.7 万亿个 token——这是一个庞大的数字。去年 I/O 期间,这一数字增长到约 480 万亿个 token。快进到今天,这一数字又跃升了 7 倍,达到每月超过 3.2 千万亿个 token。

The image depicts a line chart titled "Monthly Tokens Processed Across our surfaces," showing substantial growth in tokens processed from 9.7T in May '24 to 3.2Q+ in May '26, with a note indicating "7x Y/Y growth.

它讲述了一个关于我们产品以及其他人如何构建的重要故事——尤其是开发者和企业:

  • 目前,每月有超过 850 万名开发者正在使用我们的模型构建新的应用和体验。
  • 我们的模型 API 目前每分钟处理约 190 亿个 token。
  • 在过去 12 个月中,超过 375 家 Google Cloud 客户各自处理了超过一万亿个 token,这代表着各行业对 AI 的惊人需求。

我们产品的发展势头

如今,我们有 13 款产品各自拥有超过 10 亿用户。其中 5 款产品的用户超过 30 亿。我们的 Gemini 模型是更多人使用我们产品、以及他们更频繁使用我们产品的重要原因。

这一切都始于 Search,它比世界上任何其他产品都让更多人受益于生成式 AI。AI Overviews 目前月活跃用户超过 25 亿。AI Mode 则带来了令人耳目一新的变化,是我们迄今对 Search 最大的一次升级。人们喜爱它,而且仅仅一年时间,它的月活跃用户就已经超过 10 亿。

当人们在 Search 中使用我们由 AI 驱动的功能时,他们会更多地使用 Search。Search 已不再那么像一次次单独的查询,而更像是一场持续进行的对话,为你提供更深入的洞察,并将你与广阔的网络连接起来。

我们一直在快速创新的另一个领域是 Gemini 应用。去年 I/O 大会时,Gemini 应用的月活跃用户数为 4 亿。如今,我们已突破 9 亿,在一年内增长了一倍多。同期,每日请求量增长了七倍多。

我们一直在加入许多独特功能,例如 Personal Intelligence,使回应更加个性化且更有帮助。迄今为止,已有超过 500 亿张图片由我们的 Nano Banana 图像生成模型生成。它是过去一年中的一匹黑马,展现了世界上蕴藏着多么巨大的创造力。

产品中的自然、对话式 AI

还有大量潜在生产力有待释放。在过去一年里,我们一直在将与 Gemini 进行更自然对话的能力直接引入我们的产品。最近,Maps 迎来了十年来最大的一次升级,其中包括一项名为 Ask Maps 的新功能。人们正在使用 Ask Maps 提出更复杂、也更长的问题。

现在,我们正将更自然的对话式 AI 带入更多产品。

正文:Ask YouTube

人们每天都会来到 YouTube 提出许多问题。这里有大量精彩视频,但有时很难知道从哪里开始。

Ask YouTube 对这一体验进行了全面重构,让信息更容易理解,也更便于浏览。你会看到最符合你兴趣的视频,更重要的是,它会直接跳转到视频中与你最相关的部分。

A search results page from "Ask YouTube" answering the question, "How to teach my 3 year old how to ride a pedal bike, they already know how to ride a balance bike?" and showing a video of a child on a bike.

我们现在开始测试 Ask YouTube,并将于今年夏天在美国大范围推出。

语音驱动的 Docs Live

很多时候,我希望以说话的速度把事情完成。得益于我们的音频模型在技术上的飞跃,如今这变得更加可能。

一项名为 Docs Live 的新功能将这一体验提升到了新的层次。以前,要用 Gemini 创建文档,你必须输入一段精准的提示词。借助 Docs Live,你只需用口头方式把脑海中的想法“倾倒”出来,然后让 Gemini 完成剩下的工作。以下是一个实时演示:

未来,你将能够创建新文档并直接用语音进行编辑。Docs Live 将于今年夏天面向订阅用户推出,届时强大的语音功能也将登陆 Gmail 和 Keep。

支撑大规模创新的基础设施

看到我们的产品以如此速度不断推出创新,令人惊叹。要在为用户支撑这一切规模的同时,服务全球企业和开发者,需要对基础设施进行巨额投资。我们一直在为当下和未来进行投资。2022 年,我们每年的资本支出为 310 亿美元。今年,我们预计这一数字将达到约六倍,即大约 1800 亿至 1900 亿美元。这项投资的一个关键部分是我们的定制芯片。

十年前,我们在 I/O 舞台上发布了首款商用张量处理单元,即 TPU。自那以后,我们改变了行业构建 AI 的方式。我们最近在 Cloud Next 上发布了第 8 代 TPU。我们首次采用双芯片方案,为训练和推理分别采用专门架构:TPU 8t 和 8i。

  • TPU 8t 针对大规模预训练进行了优化,其原始计算能力几乎是我们上一代产品的三倍。我们在训练基础设施上采用了一种根本不同的方法。借助 JAX 和 Pathways,我们的训练不再受限于单个大型数据中心的限制。相反,我们现在可以在多个站点之间无缝分布式训练,在全球范围内将训练扩展到超过 100 万个 TPU。这使我们有能力打造世界上最大的训练集群。对于模型构建者而言,这意味着可以在数周而非数月内训练更大、更强大的模型。
  • TPU 8i 专为推理而设计。我们在每个环节都大幅提升了速度。因为如果说我们在 27 年的 Search 工作中学到了什么,那就是延迟至关重要。

除了速度之外,我们也在考虑如何可持续地扩展。两款芯片的能效都更高,性能功耗比最高可提升至两倍。

正文:Gemini Omni

TPU 方面的这一进展,正是我们能够在模型、编程和智能体领域实现算力突破的方式。借助世界模型,AI 正在从预测文本转向模拟现实。我们一直在努力拓展这些模型能力的边界。

Gemini Omni 是我们的新模型,能够从任何输入生成任何输出模态的样本。我们将从视频输出开始,随着时间推移会支持图像和文本。这一新模型将 Gemini 的智能与我们的生成式媒体模型相结合——这是世界理解方面的一次巨大飞跃。我们正在推出 Omni 系列的首个模型:Gemini Omni Flash。

Gemini Omni Flash 从今天起可用。你将能够在 Gemini 应用、Google Flow 和 YouTube Shorts 上试用。我们还将在未来几周内通过 API 向开发者和企业客户推出。

新的 SynthID 更新和合作伙伴

随着生成式 AI 不断进步,对更高透明度的需求也在增加。研究显示,人们能够正确识别高质量 deepfake 视频的概率仅约为四分之一。三年前,我们推出了 SynthID,这是我们肉眼不可见的水印。自推出以来,SynthID 现已为超过一千亿张图像和视频以及六万年的音频资产添加了水印。

数百万人正在 Gemini 应用中使用我们的 SynthID 检测器来验证 AI 生成的内容。现在,我们正更进一步,在各类产品中加入 Content Credentials 验证。这将向你显示内容的来源是 AI 还是相机,以及它是否曾使用生成式 AI 工具进行编辑。我们希望让更多人能够轻松使用这些工具,因此我们正将 Content Credentials 和 SynthID 验证扩展到 Search 和 Chrome。

当然,只有更多合作伙伴决定为自己的 AI 生成内容添加水印,这项工作才能实现规模化。Nvidia 去年加入了 SynthID。今天,我们很高兴地宣布,OpenAI、Kakao 和 Eleven Labs 也正在采用 SynthID。很高兴看到跨行业协作。我们期待扩展到更多合作伙伴,并为 AI 时代设定透明度标准。

正文:Gemini 3.5 Flash

Gemini 3 于几个月前发布,包含完整的模型系列。这是我们迄今为止采用率最高的系列。我们很高兴看到开发者将 Flash 作为日常主力模型使用,并利用 Pro 的深度推理和多模态能力构建出令人惊叹的体验。我们一直在努力改进这些模型,尤其聚焦于智能体式编码、长周期任务和真实世界工作流。

今天,我们推出 Gemini 3.5 Flash,这是我们将前沿智能与行动能力相结合的一系列模型中的首个。我想强调两点:

  • 与 3.1 Pro 相比,3.5 Flash 在几乎所有基准测试中都表现更好。它在编码方面取得了巨大进步——并且请看它在 GDPVal 上的非凡跃升。这一指标涵盖了许多具有现实世界经济价值的任务。
  • Gemini 3.5 Flash 是一个能力很强的模型,处于前沿水平,可与最佳模型相媲美,但它仍然非常快速。这就是为什么当你观察智能水平与输出速度的关系时,它在右上象限中独树一帜。按每秒输出 token 数来看,它比其他前沿模型快四倍。
The image shows a scatter plot titled "Artificial Analysis Intelligence Index vs Output Speed," where the y-axis represents the Artificial Analysis Intelligence Index and the x-axis represents the Output Speed (tokens/S), with data points p

这个新模型在 Google 内部对我们来说带来了颠覆性的变化。我们一直在将 3.5 Flash 与我们以代理优先的开发平台 Antigravity 的重新构想版本结合使用,它极大地加快了我们的构建速度。3 月,我们在内部的 AI 开发者工具中每天处理半万亿个 token,而且每隔几周就翻一番。现在,我们每天处理超过三万亿个 token。这种规模形成了强大的反馈循环,帮助我们改进 3.5。

Flash 令人惊叹之处在于,它以不到同类前沿模型一半的价格提供了前沿级能力。我们听说,许多公司已经在超出其年度 token 预算,而现在才 5 月。如果公司结合使用 Flash 和其他前沿模型,就可以节省大量资金。为了更直观地说明这一点,顶级公司每天处理约 1 万亿个 token。如果他们将 80% 的工作负载从其他前沿模型转移到 3.5 Flash,每年将节省超过 10 亿美元。这是真正的节省,他们可以将这些资金重新投入公司。

Gemini 3.5 Flash 今天已通过我们的产品和 API 面向所有人开放。我们也对 Gemini 3.5 Pro 感到兴奋。我们正在内部使用它,它显示出显著改进,并将于下个月推出。

正文:Antigravity 2.0

我们也在将 3.5 Flash 带给 Antigravity 中的开发者。

Antigravity 正在扩展到编码环境之外,将其转变为一个用于开发和管理自主 AI 智能体群组的平台。这包括 Antigravity 2.0,这是一款新的独立桌面应用程序,作为智能体交互的中心枢纽,任何人都可以在其中编排智能体来处理各种任务。我们还开发了一个更加优化的 Flash 版本:它不仅比其他前沿模型快 4 倍,而是快 12 倍。

Antigravity 中的用户从今天起即可体验这一功能。点击此处阅读更多关于 Antigravity 2.0 的信息。

Gemini Spark 是你的 24/7 智能体

Gemini 3.5 和 Antigravity 正在开启一个由智能体和智能体能力构成的新世界。我们已经有一段时间在为开发者和企业带来智能体。现在,我们非常专注于以安全可靠的方式把智能体的能力带给消费者,让它服务于每个人。今天,你将在我们的许多产品中看到智能体体验。

我尤其为 Gemini Spark 感到兴奋,这是 Gemini 应用中的个人 AI 智能体,可帮助你驾驭数字生活,在你的授权和指导下代表你采取行动。

  • 它运行在 Google Cloud 上的专用虚拟机中。并且它全天候 24/7 运行,因此你不需要一直让笔记本电脑保持开机。
  • 它由 Gemini 3.5 和 Google Antigravity harness 提供支持,使其能够轻松地在后台执行长周期任务。
  • Spark 将与各种工具无缝集成,首先从我们自己的工具开始,未来几周还将通过 MCP 与第三方工具集成。
  • 你可以以最方便的方式使用 Spark:在 Gemini 应用中使用,或很快通过电子邮件和聊天使用。
  • 在 Android 上,你将能够通过一个名为 Android Halo 的新 UI 空间查看 Spark 等代理的实时更新和任务进度,该功能将于今年晚些时候推出。今年夏末,Spark 将直接在 Chrome 中运行,作为你在整个网络中的代理式浏览器。

我们将从本周开始向可信测试者推出 Gemini Spark,Beta 版将于下周面向美国的 Google AI Ultra 订阅用户推出。

代理式时代的搜索

Gemini Spark 是由 3.5 模型和 Antigravity 实现的首个体验。这一组合为我们提供了新的方式,以加速推进我们的使命,并改造我们的产品,使其变得更加有用。

随着我们进入这个代理式时代,Search 将比以往任何时候都更有用、更强大。今天,我们在 Search 中推出信息代理。这些是个性化的 AI 代理,你可以将其设置为在后台全天候运行,在恰到好处的时刻找到你需要的内容,并帮助你采取行动。信息代理将于今年夏天开始推出,首先面向 Google AI Pro 和 Ultra 订阅用户。

我们构建真正代理式 Search 的另一种方式,是将代理式编码能力融入其中。借助 Gemini 3.5 Flash 和 Google Antigravity 的能力,Search 将为你的个人问题构建定制体验,例如动态布局和交互式视觉内容。这些生成式 UI 能力将于今年夏天在 Search 中向所有人免费开放。

对于那些需要你不断回头处理、运行时间较长的任务,Search 还可以更进一步——构建持久的自定义仪表板或跟踪器,让你可以返回并持续推进。你可以把它们看作是面向你特定任务的迷你应用。未来几个月,你将能够直接在 Search 中使用 Antigravity 构建自定义体验,首先面向美国的 Google AI Pro 和 Ultra 订阅用户推出。

来自我们的 agentic Gemini 时代的更多内容

以下是我们在 I/O 上分享的其他内容:

  • Daily Brief 是另一款即将登陆 Gemini app 的开箱即用型智能体。它会为你提供个性化摘要,并综合你的收件箱、日历和任务中的信息,找出最重要、需要你留意的事项。而且它不只是总结数据:它还会确定优先级、进行组织并建议下一步行动,让你可以轻松采取行动。所有这些都包含在这份超级简洁、便于快速浏览的晨间摘要中。
  • Google Flow 今天正向所有用户推出一款新的代理,它可以在你的控制下,结合你的输入,对复杂任务进行规划和推理。它基于 Gemini 模型构建,能够带来专业能力并深入理解你的项目,从而帮助进行早期头脑风暴、创作和编辑。你还可以直接在 Flow 中以 vibe code 的方式创建任何创意工具,例如用于设计视频特效、手绘动画或叠加文本的工具。

原文标题

I/O 2026: Welcome to the agentic Gemini era