中文内容
“ANCESTRA”幕后:将 Veo 与真人电影制作相结合
2025年6月13日
·我们与 Darren Aronofsky、Eliza McNitt 及一支超过200人的团队合作,使用 Veo 和真人电影制作方式拍摄了一部电影。
概要
Google DeepMind 与 Primordial Soup 合作制作短片《ANCESTRA》,该片在 Tribeca Festival 首映。影片将真人拍摄与由 Google 视频生成模型 Veo 生成的视频相结合。Google DeepMind 开发了新的 Veo 能力,以支持个性化、精准运动匹配,以及真人素材与生成式影像的融合。
Summaries were generated by Google AI. Generative AI is experimental.要点
《ANCESTRA》是一部将真人拍摄与 Google DeepMind 视频生成模型 Veo 相结合的短片,在 Tribeca Festival 首映。Google DeepMind 与 Primordial Soup 合作,将生成式 AI 交到电影创作者手中,推动叙事与技术的边界。Gemini、Imagen 和 Veo 被用于根据氛围、色彩和情感生成镜头,并以照片作为灵感来源。新的 Veo 能力被开发出来,用于个性化视频、精准运动匹配,以及将真人拍摄素材与生成影像融合。生成式 AI 补充电影制作,帮助艺术家突破限制,创作难以拍摄或成本高昂的场景。
Summaries were generated by Google AI. Generative AI is experimental.探索其他风格:
- 概要
- 要点
今天,Eliza McNitt 的短片《ANCESTRA》在 Tribeca Festival 首映。影片讲述一位母亲的故事,以及她的孩子出生时心脏有一个洞后发生的事情。影片灵感来自 McNitt 自己出生时的戏剧性事件,将母爱描绘为一种宇宙般的、拯救生命的力量。
这是 Google DeepMind 团队与 Primordial Soup 合作制作的三部短片中的第一部。Primordial Soup 是由导演 Darren Aronofsky 创立的新项目,致力于叙事创新。我们共同建立这一合作关系,是为了将世界领先的生成式 AI 交到顶尖电影创作者手中,推进叙事与技术的前沿。
《ANCESTRA》将真人拍摄场景与由 Veo——我们最先进的视频生成模型——生成的片段相结合。McNitt 这样描述她与我们技术合作的经历:“Veo 是我想象周围宇宙的另一枚镜头。”
为创作《ANCESTRA》,Google DeepMind 组建了一支由动画师、艺术指导、设计师、编剧、技术专家和研究人员组成的多学科创意团队。他们与200多名传统电影制作和制片专家、真人拍摄剧组和演员,以及剪辑团队、视觉特效(VFX)艺术家、声音设计师和音乐作曲家密切合作。
将我们最先进的生成模型带上银幕
在 McNitt 撰写《ANCESTRA》剧本的同时,她与分镜师合作,将真人拍摄场景视觉化,并与我们的团队协作,为可受益于 AI 生成的片段生成图像。
我们使用 Gemini 来开发提示词,并使用 Veo 以及我们的图像生成模型 Imagen 创建一系列候选镜头,按氛围、色彩和情感进行组织。以下是我们规划和创作影片 AI 元素的过程分解:
- Gemini:我们的团队上传了 McNitt 父亲在她出生当天拍摄的照片,并请 Gemini 以精确的美学细节描述这些照片。这些描述成为创建新图像和视频的提示词。
- Imagen:我们生成了影片的关键概念艺术,定义整体观感、风格和氛围。这些图像成为我们视频的起点。
- Veo:我们将生成的图像动画化,并编写额外的文本提示词来引导动作和运动,以创建最终镜头。
共同开发新的 Veo 能力
Veo 使生成结合真人表演与逼真新生儿生成影像的场景成为可能,但也带来了新的挑战。例如,McNitt 希望生成视频能匹配其真人拍摄场景的质量和色彩。她还需要控制生成视频的摄像机运动和主体内容。为应对这些挑战,我们开发了若干新的 Veo 能力,以支持更高程度的个性化、精准运动匹配,以及融合真人素材与生成式影像的能力。
个性化视频生成
我们的目标是生成与故事本身一样亲密且个人化的视频。例如,McNitt 希望生成一个看起来逼真的子宫内婴儿画面,同时控制艺术指导、构图和运动。因此,我们对一个 Imagen 模型进行了微调,使其匹配参考图像的风格。随后,我们与 Gemini 合作编写并优化提示词,以生成逼真的子宫内婴儿图像。最后,我们使用 Veo 的图像转视频能力,将这些图像转化为动画场景。
通过微调 Imagen 模型,我们在 AI 生成婴儿的不同场景之间保持了特定且一致的艺术指导。
运动匹配视频生成
在一个场景中,McNitt 希望带观众穿越人体,最终抵达子宫,展示通过剖宫产出生的婴儿。为了遵循这种精确的摄像机运动,我们创建了一个人体的虚拟三维模型,并通过让虚拟摄像机穿过该模型,录制了该场景的草稿镜头。随后,我们使用 Veo 跟踪草稿镜头的运动,并利用相同的运动生成新视频。我们用文本提示词引导生成视频,直到实现 McNitt 心目中的镜头。
McNitt 使用人体虚拟模型规划了她想要的摄像机运动。随后,我们使用 Veo 的运动匹配功能生成具有相同运动的视频。
在另一个场景中,McNitt 希望展示一组有机孔洞闭合的画面,以暗示婴儿心脏上的洞。因此,我们向 Veo 提供了这一运动的参考视频,并提示它在不同镜头中进行运动匹配。仅用计算机生成图像(CGI)制作这些片段会很复杂且耗时,而且仅依靠文本提示词也很难控制运动。在 Veo 的帮助下,我们能够在几分钟内制作出高质量场景。
我们向 Veo 提供了一段包含所需运动的输入视频。随后,Veo 将参考运动与文本提示词结合,生成新的运动匹配场景。
融合传统电影制作与生成式视频
使用传统 VFX 制作婴儿影像存在看起来诡异的风险,导演也很难且耗时地获得心目中的精确表演。因此,对于出生场景,我们将演员表演与一个看起来逼真的生成新生儿合成到一起,以适配场景。首先,我们向 Veo 提供真人拍摄素材、描述场景的文本提示词,以及用于添加婴儿的指定区域。随后,利用 Veo 的“添加对象”能力,我们将 AI 生成的婴儿图像加入真人拍摄素材中,同时保持其他内容一致,并通过传统 VFX 和调色对镜头进行优化。
我们在真人拍摄素材中添加了生成的新生儿,并用 VFX 和调色完善最终镜头。
将生成式视频加入传统工作流程
影片中的许多场景使用了多个 AI 生成图像和视频,并通过传统电影制作流程无缝合成。例如,我们创作了一个场景,展示日落时刚孵化的鳄鱼蛋内部复杂的纹理。为构建这一镜头,我们将多个生成视频和图像与传统 VFX 合成技术结合起来。
这个镜头捕捉了日落时分、保护幼崽的鳄鱼母亲在附近的情况下,从正在裂开的鳄鱼蛋内部看到的视角。我们使用 Veo 和 Imagen 生成关键视觉元素,随后在传统 VFX 流程中将其无缝合成,以实现这一特定创意愿景。
与电影行业合作讲述新故事
《ANCESTRA》是我们与 Primordial Soup 合作制作的三部影片中的第一部。该合作中的每部影片都由一位新锐电影创作者执导,并由 Darren Aronofsky 担任导师、我们的团队提供支持。
许多出色电影都是使用真人拍摄、CGI 和 VFX 工具包创作的。生成式 AI 可以补充现有创意和制作流程,帮助电影创作者克服难以捕捉或成本高到难以承担的场景所带来的实际限制。
通过与艺术家合作,我们确保正在构建的工具有用,并植根于专业电影创作者的需求。与 McNitt 和 Aronofsky 这样的愿景者合作,帮助我们探索当今技术的创意潜力,并想象下一步能够创造什么。
- 正文:Google DeepMind
- 正文:Google Research
- AI 产品







