元鉴
返回中文阅读流

Google DeepMind Blog

推出 Gemini Omni

来自 Google DeepMind Blog 的最新公开更新。

中文内容

已翻译official company source英文原文2026-05-17

推出 Gemini Omni

Gemini Omni Flash 是一个可从任何输入创作任何内容的模型——从视频开始。

您的浏览器不支持音频元素。

Listen to article
此内容由 Google AI 生成。生成式 AI 仍处于实验阶段
[[duration]] 分钟
语音 速度
语音
速度 正文:0.75X 正文:1X 正文:1.5X 正文:2X

去年,Nano Banana 将 Gemini 的智能带入了图像生成与编辑。此后,它帮助数百万人修复旧照片、根据草图进行设计,并以前所未有的方式将想法可视化。从一开始,我们就从底层将 Gemini 构建为原生多模态模型,现在我们正在迈出下一步。

我们推出 Gemini Omni,让 Gemini 的推理能力与创作能力相结合。Omni 是我们的新模型,能够从任何输入创作任何内容——从视频开始。借助 Omni,你可以将图像、音频、视频和文本组合作为输入,并生成基于 Gemini 真实世界知识的高质量视频。你还可以通过对话轻松编辑视频。

今天,我们正在向 Gemini 应用、Google Flow 和 YouTube Shorts 推出 Omni 系列的首个模型:Gemini Omni Flash。未来,我们将支持图像和音频等输出模态。以下是 Omni 的一些特别之处:

通过对话编辑你的视频

Gemini Omni 让你能用更简单的方式编辑视频——通过自然语言。每条指令都会建立在上一条之上。你的角色保持一致,物理效果经得起推敲,场景也会记住之前发生的内容。

改变你周围的世界。更改特定事物,或改变一切。你的视频会成为某种你原本无法亲自拍摄之物的起点。

提示:把雕塑变成由泡泡构成。

重新想象动作。拿一段你拍摄的视频,只需让 Omni 改变正在发生的事情。编辑动作,加入新角色或物体,或把一个瞬间转化为意想不到的内容。

提示:当这个人触摸镜子时,让镜子像液体一样美丽地泛起涟漪,并让这个人的手臂变成反光的镜面材质。

提示:调暗房间里的灯光。在一个跟随手部上方漂浮的玻璃球内放入一个黑白棋盘格房间,球内包含同一只手托着球体的递归呈现,创造出房间的无限递归。镜头缓慢靠近球体,形成一个视频循环。

提示:公寓的灯光开始随着音乐同步亮起。

通过多轮对话细化你的视频。改变环境、角度、风格,甚至具体细节,同时始终不丢失原始场景的脉络。滚动轮播,查看编辑如何相互叠加。

提示:一段小提琴手演奏歌曲的视频。

提示:将小提琴手转移到图像环境中

提示:让小提琴隐形

提示:将镜头角度改为从小提琴手肩后拍摄。

基于 Gemini 的世界知识,让想法变为现实

Gemini Omni 不只是构建看起来真实的场景,它还能推理接下来应该发生什么。它将对物理的直觉理解与 Gemini 对历史、科学和文化背景的知识相结合,弥合从照片级真实感到有意义叙事之间的差距。

以更准确的物理效果创建视觉内容。Omni 对重力、动能和流体动力学等力学因素具有更强的直觉理解,使你能够创建更逼真的场景。

提示:一颗弹珠在连锁反应式轨道上快速滚动,连续流畅镜头。

融合知识与创造力。Omni 利用 Gemini 的知识,将语言、图像和意义连接起来,其方式远超模式匹配。

提示:视频展示字母表中的物品。每个字母对应一个以该字母开头的不同寻常物品,放在桌子上(例如 C 对应 Capybara,D 对应 disco globe,L 对应 Lava Lamp)。26 个字母必须由 26 件匹配物品表示,并配有显示该字母的下三分之一字幕。一次只显示一个物品和一个下三分之一字幕。每个下三分之一字幕都应看起来像用黑色马克笔写在纸条上,位于左下角。快速切换,大约每件物品 9 帧,24FPS。最后一帧是一张写着“THE END”的纸条。整段视频配有平静流畅的音乐。

将复杂想法可视化。Omni 可以根据简短提示创建有吸引力的讲解视频,生成用于拆解更复杂想法的视觉内容。

提示:蛋白质折叠的黏土动画讲解,所有东西都由黏土制成,没有手,定格动画,准确

从任意输入组合创建视频

可引用任何内容。Omni 可将任何参考内容——图像、文本、视频或音频——转化为一个统一连贯的输出。起初,音频方面仅支持语音参考,但我们很快会推出其他类型的音频输入。

提示:基于 image_0.png 的动态科幻电影风格视频。元素像 video_0.mp4 一样亮起,并与 audio_0.wav 的音乐节拍同步

提示:参考 video-0 中极端的镜头运动、透视和畸变,创建 image-0 中角色的正面全身步行动画循环,在步行过程中快速切换为多种视觉风格,从写实电影风格开始。保持环境不变,只改变风格。硬切背景始终以天空为中心。持续行走、连续音频,并让风格切换与音频节拍完美同步。电影感,16:9。

提示:在我触碰每片蕨类叶子时,加入同步的竖琴声音。将叶片结构改为都类似半透明 3D 生物发光植物,周围有生物发光萤火虫飞舞,并随着我的演奏作出反应,与声音同步,细腻的散景景深、动态光照,反射到房间墙壁上,同时保持房间结构不变

从你已有的内容开始。借助输入参考,你可以使用角色、场景或绘图的图像,以符合你构想的方式进行创作。

提示:想象我行走时,世界逐渐变成复古未来主义风格(像 image-1 一样有颗粒感、氛围低沉)。使用该音频作为复古未来主义背景音乐。10 秒。

提示:把这个变成写实影像,只把这张图用作动作参考,不要在最终视频中显示这张图

提示:将输入视频中的姿势和动作应用到这张图提供的角色上。将图像参考中的风格应用到新视频中

应用风格、动作或效果。通过使用输入参考来定义视觉语言,或仅用自然语言描述。Omni 会融合输入参考,创建连贯的视频片段。

提示:编辑这个,保持一切不变。添加从滑板中冒出的动画运动效果

提示:将所提供视频中鲸鱼游动的动作应用到所提供的流体反光材质图像上。不要显示鲸鱼或水;相反,让这种反光的运动材质形成类似鲸鱼游动时的形状。用移动的白色光滑材质形状替代水

使用你自己的数字头像创建视频

我们致力于负责任地开发 AI,并制定了明确政策,以保护用户免受伤害,并规范我们 AI 工具的使用。起初,你可以通过 Avatars 使用自己的声音创建视频;Avatars 会创建你的数字版本,以便你生成外观和声音都像你的视频。除头像功能外,就通过编辑视频来改变音频和语音而言,我们仍在努力测试,并更好地理解如何以负责任的方式将这一能力提供给用户。

所有使用 Omni 创建的视频都包含我们不可感知的 SynthID 数字水印。你可以通过 Gemini 应用、Chrome 中的 Gemini 和 Google Search 轻松验证视频是否由 Gemini Omni 生成。你可以在我们的博客文章中进一步了解,我们如何扩展内容透明度与验证工具,帮助你理解网络上的内容是如何被创建和编辑的。

立即试用 Gemini Omni

今天,我们推出 Omni 系列的首个模型——Gemini Omni Flash。Gemini Omni Flash 今天起通过 Gemini 应用和 Google Flow 面向全球所有 Google AI Plus、Pro 和 Ultra 订阅用户推出。从本周开始,它也将在 YouTube Shorts 和 YouTube Create App 上免费向用户推出。

未来几周,我们还将通过 API 向开发者和企业客户推出。

原文标题

Introducing Gemini Omni