元鉴
返回中文阅读流

NVIDIA Developer Blog

大规模合成逼真的 3D 医学图像以交付预训练模型

高质量 3D 医学影像数据是现代放射学 AI 的基础,但常受数据稀缺、隐私限制和标注成本制约。

中文内容

已翻译official company source英文原文2026-05-26

高质量的 3D 医学影像数据是现代放射学 AI 的基础,但获取此类数据往往受到数据稀缺、隐私限制以及专家标注成本高昂的制约。因此,训练可靠的 3D 医学影像模型常常受限于规模小、范围窄且难以共享的数据集,从而限制了模型的鲁棒性和泛化能力。

为帮助团队克服这些挑战,NVIDIA 于 2024 年推出了 Medical AI for Synthetic Imaging(MAISI)——一种先进的生成式模型,可合成高分辨率 3D CT 体数据,并提供像素级解剖分割,用于保护隐私的数据增强和研究。

NV-Generate-CTMR 基于 MAISI 架构家族构建,包括采用 Latent Rectified Flow 的 MAISI‑v2,提供了一个用于合成 CT 和 MRI 生成的开源端到端框架。它使研究人员和开发者能够大规模生成逼真的 3D 体数据及配对分割,将其直接集成到训练流水线中,并加速下游医学影像 AI 开发。本文介绍了 NV-Generate-MR-Brain,这是一种用于合成人脑解剖结构及结构分割的新模型,基于 MAISI 架构构建,并将其扩展到可扩展、开放的合成 3D 医学影像生成工作流。

Figure shows Generated MR images using NV-Generate-CTMR rflow-mr modelFigure shows Generated MR images using NV-Generate-CTMR rflow-mr model
图 1. 使用 NV-Generate-CTMR rflow-mr 模型生成的 MR 图像。左侧图像为生成的 T2w 前列腺 MRI;右侧图像为生成的 T1w 脑部 MRI。

打破 3D 医学影像数据瓶颈

NV-Generate-MR-Brain 基于由 University of Zurich、Medipol University Hospital、Forithmus 和 NVIDIA 新发布的多模态 MR-RATE 数据集进行训练。MR-RATE 数据集建立在非常成功的 CT-RATE 数据集和多模态基础模型之上。

MR-RATE 是全球最大的开源多模态 MRI 数据集,包含来自 83,000 多名患者的 100,000 项脑部 MRI 研究,总计约 700,000 个体数据,每项研究都配有去标识化的放射学报告、临床信息以及扫描仪的医学数字成像与通信(DICOM)元数据。该数据集旨在为开发能够同时理解影像和临床背景的研究型与商业化 AI 系统建立一个开放的大规模基础。MR-RATE 捕捉了真实世界神经影像实践的多样性,涵盖不同的扫描仪类型、成像方案和神经系统病理。MR-RATE 数据集将以开放的 CC-BY-NC 许可证向研究机构发布,商业许可证可通过 Forithmus 获取。

Image shows a novel dataset of brain and spine volumes from MR-RATE alongside a radiology report that the radiologist can reviewImage shows a novel dataset of brain and spine volumes from MR-RATE alongside a radiology report that the radiologist can review
图 2. MR-RATE 是一个新型数据集,包含脑部和脊柱 MRI 体积数据及对应的放射学报告

从设计上即开源

该代码库包含端到端推理代码、预训练权重和训练配置,使团队无需从头重建复杂流程即可立即上手。用户可以开箱即用地生成合成图像,或在自己的数据集上微调模型,以适应新的解剖结构、扫描仪或模态——显著降低技术和计算门槛。对于该项目,包括代码、数据和模型在内的所有组成部分均以开源许可证发布,其中大多数模型根据 NVIDIA Open Model License 发布。这些模型的推理可在 NVIDIA RTX GPU 上免版税运行,用于生成图像、在新数据上微调模型,或应用于新的使用场景。

为什么图像生成对医疗 AI 至关重要

医学图像合成已迅速成为医疗 AI 开发的一项核心能力。团队利用合成数据来扩充有限的训练集,在 CT 和 MRI 等成像模态之间进行转换,模拟罕见病理,并在不暴露真实患者信息的情况下实现保护隐私的数据共享。

通过生成逼真且解剖结构一致的 3D 体数据——通常还配有分割标签——合成数据有助于在标注样本稀缺时提升模型的泛化能力,并支持跨机构、扫描仪和协议的一致性基准评估。

随着临床影像变得日益个性化、异质化和多模态化,可扩展且可控的生成框架已不再是可选项,而是构建稳健医疗 AI 系统的必要条件。

现有医学图像合成方法的局限性

多年来,医学图像合成方法大体可分为三类:直接回归模型、基于生成对抗网络(GAN)的方法,以及近来通过迭代去噪生成图像的扩散模型。

在这些方法中,扩散模型已成为当前最先进的方法,具有更高的稳定性,并能够建模复杂的解剖分布。然而,将扩散模型应用于真实临床工作流程仍然具有挑战性。

首先,真实世界的医学图像在扫描仪、采集协议和体素间距方面差异很大,使得在狭窄数据集上训练的模型难以泛化。其次,CT 和 MRI 本质上是 3D 模态,但完整的 3D 扩散模型在时间和 GPU 内存方面计算成本都很高。第三,即使提供了掩码或解剖提示等条件信号,生成的输出也可能无法忠实遵循这些输入,从而限制了其在可控生成或特定任务生成中的实用性。

总体而言,这些挑战——泛化能力有限、计算成本高以及条件对齐较弱——使得许多现有方法难以大规模部署,也推动了对更快速、更可控的 3D 合成框架的需求。

快速、开源的 3D 医学图像合成

NV‑Generate‑CTMR 是 NVIDIA 推出的开源框架,旨在使高质量 3D 医学图像合成能够切实应用于日常研究与开发。它并非将生成式建模视为狭窄的、任务特定的解决方案,而是提供了一个可复现、即用型的平台,用于在广泛的临床场景中创建逼真的 CT 和 MRI 体数据。

该框架是首个在单一模型中支持灵活体素大小、可变体数据维度以及全身覆盖的开源医学图像生成框架(如下图所示)。

这种灵活性使研究人员能够合成与真实临床方案相匹配的数据——从小型裁剪区域到全分辨率、大视野扫描——而无需为每种设置分别重新训练模型。从这个意义上说,NV‑Generate‑CTMR 可作为医学影像的基础模型,能够适应许多下游任务和解剖结构,而不是局限于单一器官或配置。

Figure shows generated CT images aren’t limited to a single organ or configurationFigure shows generated CT images aren’t limited to a single organ or configuration
图 3:rflow-ct 模型在三个不同解剖区域中针对不同体素和体积大小的 NV-Generate-CTMR 图像生成结果

高效、可持续的 AI 开发

通过公开共享模型和训练细节,NV‑Generate‑CTMR 遵循与其他开源基础模型相同的理念:复用而非重新训练。对现有模型进行微调比从零开始训练更快,也更节能,可缩短开发时间、降低电力消耗并减少环境影响。

底层原理

NV‑Generate‑CTMR 包含两种模型架构:

  • MAISI‑v1,基于潜在去噪扩散概率模型(DDPM),用于具有更好多样性的随机图像生成
  • MAISI‑v2,基于潜在 Rectified Flow,用于将推理速度加快 33 倍,并生成质量更高的图像

相关细节已发表于两篇技术论文:MAISI-v2: Accelerated 3D High-Resolution Medical Image Synthesis with Rectified Flow and Region-Specific Contrastive Loss,发表于 2026 年 AAAI Conference on Artificial Intelligence;以及 MAISI: Medical AI for Synthetic Imaging,发表于 2025 年 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)。

大规模快速推理

与此前的医学图像生成方法相比,NV‑Generate‑CTMR 中的 MAISI‑v2 模型实现了最先进的图像质量,同时推理速度快得多,并且其推理速度可与领先的视频生成模型相媲美。下方表 1 详细列出了 NV-Generate 系列模型。

Model Nameddpm-ctrflow-ctrflow-mrNV-Generate-MR-BrainModalityCTCTMRMRRelease dateAugust 2024March 2025October 2025March 2026Body RegionWhole bodyWhole bodyBrain, prostate, abdomen, breastWhole brain, skull-stripped brain (user can specify)ArchitectureMAISI-v1MAISI-v2MAISI-v2MAISI-v2Inference step1000303030Max Volume512x512x768512x512x768512x512x128512x512x256Use caseImage-only generation; image/mask pair generationImage-only generation; image/mask pair generationImage-only generationImage-only generation; cross-contrast generationAdvantagesBetter image diversity, whole body coverageFast inference speed, better image quality, whole body coverageFast inference speed, multiple body region coverageFast inference speed, better image quality for brain regionLicenseOpen source, Commercial friendlyOpen source, Commercial friendlyOpen source, Research OnlyOpen source, Commercial friendly
表 1. NV-Generate 系列模型

用于脑部 MRI 的多对比度生成模型

脑部 MRI 是磁共振成像最广泛使用的应用之一。为了支持这一领域,我们发布了 NV-Generate-MR-Brain,这是一个基于 MAISI‑v2 架构构建并在新发布的 MR‑RATE 数据集上训练的生成模型。

该模型专为高保真脑部 MRI 合成而设计,并包含一个基础脑部 MRI 模型,可根据用户指定生成全脑图像或去颅骨图像。它支持多种广泛使用的序列和对比度,包括 T1 加权(T1w)、T2 加权(T2w)、FLAIR 和 SWI,从而能够为研究和临床培训应用生成逼真且灵活的图像。该模型支持最高 512 × 512 × 256 的高分辨率体积合成,接近临床和研究脑部 MRI 所用空间分辨率的上限范围,能够为医学影像工作流程生成逼真的完整体积数据。

此外,NV-Generate-MR-Brain 提供了一个 ControlNet 模块,用于生成指定的解剖结构或进行跨序列合成,使用户能够基于一种 MRI 序列预测另一种 MRI 序列。

现实世界应用与研究采用

由 NV‑Generate‑CTMR 生成的包含肿瘤的图像–掩膜配对已被用作 NV Segment 的增强训练数据。除 NVIDIA 外,这些模型还被外部研究人员在广泛的应用中使用或微调,包括:

  • 零样本异常检测
  • 肺部 CT 癌症分类
  • 前列腺 MRI 病灶分类
  • MR 到 CT 合成
  • 文本提示的 CT 和 MRI 肿瘤分割
  • 脑弥散 MRI 纤维束成像
  • 脑肿瘤 MRI 合成
  • 文本到 CT 生成
  • 文本到脑部 MRI 生成

“来自 NV-Generate 的合成且解剖结构逼真的神经 MR 数据,结合 NV-Segment 的自动分割以及 NV-Reason 的临床推理能力,帮助我们更高效地设计和验证 AI 解决方案,”Philips MR 业务负责人 Ioannis Panagiotelis 博士表示。“这使放射科医生能够受益于更智能、更具可解释性的工作流程,同时不损害患者隐私。”

亲自试用:合成 3D 医学影像

体验 NV-Generate-CTMR 的最快方式是亲自运行它。

在线演示:无需 GPU,你可以探索由 NVIDIA 托管的交互式浏览器演示。

命令行界面(CLI):在线演示展示了核心功能,但完整体验可从 GitHub 仓库获取,其中包括预训练权重和即用型推理脚本,可在本地生成完整的 3D CT 或 MRI 体积。克隆仓库并安装依赖项后,你可以使用一条命令启动推理:

git clone https://github.com/NVIDIA-Medtech/NV-Generate-CTMR.git


cd NV-Generate-CTMR
export MONAI_DATA_DIRECTORY="./temp_work_dir"
network="rflow"
generate_version="rflow-ct"
python -m scripts.inference \
  -t ./configs/config_network_${network}.json \
  -i ./configs/config_infer.json \
  -e ./configs/environment_${generate_version}.json \
  --random-seed 0 \
  --version ${generate_version}

此命令会加载预训练的 rectified flow 模型,并将完整的 3D 医学体积直接合成到你的本地工作区。随后,你可以可视化输出结果、检查配对的分割掩码,或将生成的数据接入你自己的训练和评估流水线。上述代码块的一个示例结果如下图 4 所示。

示例结果

An example of a typical CT image generated from mask condition, showing how this pair of image and mask are well aligneAn example of a typical CT image generated from mask condition, showing how this pair of image and mask are well aligne
图 4. 基于掩膜条件生成的典型 CT 图像示例

无论你是在测试想法、扩充数据集,还是对模型进行基准测试,NV-Generate-CTMR 都能让你轻松立即开始生成逼真的医学图像。

视频 1. 生成的 CT 和 MR 图像示例

快速开始

代码:https://github.com/NVIDIA-Medtech/NV-Generate-CTMR 数据集(研究访问):https://huggingface.co/datasets/Forithmus/MR-RATE

模型检查点:

  • 正文:https://huggingface.co/nvidia/NV-Generate-CT
  • 正文:https://huggingface.co/nvidia/NV-Generate-MR
  • 正文:https://huggingface.co/nvidia/NV-Generate-MR-Brain

Like

标签

原文标题

Synthesize Realistic 3D Medical Images at Scale to Ship Pre‑Trained Models