中文内容

已翻译official company source英文原文2025-10-25

MedGemma：我们用于健康 AI 开发的最强大开放模型

2025 年 7 月 9 日

Daniel Golden，工程经理；Rory Pilgrim，产品经理，Google Research

我们宣布推出 MedGemma 系列中的新多模态模型，这是我们用于健康 AI 开发的最强大开放模型。

快速链接

MedGemma 技术报告
正文：HAI-DEF
Hugging Face 上的 MedGemma
GitHub 上的 MedGemma
GitHub 上的 MedSigLIP

医疗保健正日益采用 AI 来改善工作流管理、患者沟通以及诊断和治疗支持。关键在于，这些基于 AI 的系统不仅要性能出色，还要高效并保护隐私。正是基于这些考量，我们构建并于近期发布了 Health AI Developer Foundations（HAI-DEF）。HAI-DEF 是一组轻量级开放模型，旨在为开发者开展自身健康研究和应用开发提供稳健的起点。由于 HAI-DEF 模型是开放的，开发者可以完全掌控隐私、基础设施以及对模型的修改。今年 5 月，我们通过 MedGemma 扩展了 HAI-DEF 系列；MedGemma 是一组基于 Gemma 3 的生成式模型，旨在加速医疗保健和生命科学 AI 开发。

今天，我们很自豪地宣布该系列中的两个新模型。第一个是 MedGemma 27B Multimodal，它通过增加对复杂多模态和纵向电子健康记录解读的支持，补充了此前发布的 4B Multimodal 和 27B 纯文本模型。第二个新模型是 MedSigLIP，这是一款用于分类、搜索及相关任务的轻量级图像和文本编码器。MedSigLIP 基于驱动 4B 和 27B MedGemma 模型的同一图像编码器。

MedGemma 和 MedSigLIP 是医学研究和产品开发的有力起点。MedGemma 适用于需要生成自由文本的医学文本或影像任务，例如报告生成或视觉问答。对于涉及分类或检索等结构化输出的影像任务，推荐使用 MedSigLIP。上述所有模型都可以在单个 GPU 上运行，MedGemma 4B 和 MedSigLIP 甚至可以经过适配在移动硬件上运行。

有关 MedGemma 和 MedSigLIP 的开发与评估的完整细节，可参见 MedGemma 技术报告。

MedGemma：面向健康领域的多模态生成模型

MedGemma 系列包括 4B 和 27B 两种规模的变体，这两种变体现在均可接受图像和文本输入，并生成文本输出。

MedGemma 4B Multimodal：MedGemma 4B 在 MedQA 上得分为 64.4%，使其跻身最佳超小型（<8B）开放模型之列。在一项非盲研究中，由 MedGemma 4B 生成的胸部 X 光报告中有 81% 被一位获得美国委员会认证的放射科医生判定为具有足够的准确性，与原始放射科医生报告相比，可导致相似的患者管理结果。此外，它在医学图像分类任务上的表现也达到可与特定任务最先进模型竞争的水平。
MedGemma 27B Text 和 MedGemma 27B Multimodal：基于内部和已发表的评估，MedGemma 27B 模型在 MedQA 医学知识与推理基准测试中属于表现最佳的小型开放模型（<50B）之列；文本版本得分为 87.7%，与领先的开放模型 DeepSeek R1 相差不到 3 分，但推理成本约为其十分之一。MedGemma 27B 模型在多种基准测试中可与更大模型竞争，包括电子健康记录数据的检索和解读。

在 MedQA 上，MedGemma 4B 和 27B 属于同等规模模型中表现最佳的模型之列。请注意，在该图中，成本估算基于 legacy.lmarena.ai 的价格分析和 together.ai/pricing。对于排行榜上未出现的模型，我们使用了其派生来源模型的价格数据。

根据一位经美国委员会认证的心胸放射科医师的审查，我们发现，与原始放射科医师报告相比，81% 的 MedGemma 胸部 X 光报告会导致相似的患者管理决策。

我们通过以下方式开发了这些模型：先训练一个针对医学优化的图像编码器（已作为 MedSigLIP 独立发布，见下文所述），随后在医学数据上训练 Gemma 3 模型对应的 4B 和 27B 版本。在整个过程中，我们注意保留 Gemma 的通用（非医学）能力。这使得 MedGemma 能够在混合医学与非医学信息的任务中表现良好，并保留其遵循指令的能力以及非英语语言能力。

这些模型的一个关键方面是其适应性。例如，经过微调后，MedGemma 4B 能够在胸部 X 光报告生成方面达到最先进的性能，RadGraph F1 分数为 30.3。开发者能够直接提升其目标应用性能的能力，凸显了 MedGemma 作为开发者构建医疗健康 AI 起点的价值。

MedSigLIP：面向医疗健康的专用图像编码器

MedSigLIP 是一种轻量级图像编码器，仅有 4 亿个参数，采用用于语言-图像预训练的 Sigmoid 损失（SigLIP）架构。MedSigLIP 是在 SigLIP 的基础上，通过使用多样化的医学影像数据进行调优而适配得到的，这些数据包括胸部 X 光片、组织病理学图像块、皮肤科图像和眼底图像，使模型能够学习这些模态特有的细微特征。重要的是，我们还特别确保 MedSigLIP 在原始 SigLIP 模型训练所用的自然图像上保持强劲表现，从而维持其通用性。

MedSigLIP 旨在通过将医学图像和医学文本编码到一个共同的嵌入空间中，弥合二者之间的差距。与特定任务的视觉嵌入模型相比，MedSigLIP 实现了相近或更优的分类性能，同时在各类医学影像领域具有更强的通用性。

MedSigLIP 非常适合：

传统图像分类：构建高性能模型，对医学图像进行分类。
零样本图像分类：通过将图像嵌入与文本类别标签的嵌入进行比较，在没有特定训练样本的情况下对图像进行分类。
语义图像检索：从大型医学图像数据库中查找视觉上或语义上相似的图像。

开放模型的力量

由于 MedGemma 系列是开放的，这些模型可以被下载、基于其构建并进行微调，以支持开发者的特定需求。尤其在医疗领域，与基于 API 的模型相比，这种开放方式具有几项明显优势：

灵活性和隐私：模型可以在开发者偏好的环境中的专有硬件上运行，包括在 Google Cloud Platform 上或本地运行，这可以解决隐私顾虑或机构政策要求。
针对高性能的定制：可以对模型进行微调和修改，以在目标任务和数据集上实现最佳性能。
可复现性和稳定性：由于模型以快照形式分发，其参数是冻结的；与 API 不同，参数不会随时间意外变化。这种稳定性对于医疗应用尤其关键，因为一致性和可复现性在其中至关重要。

为确保广泛的可访问性和易用性，我们的 Hugging Face collection 以流行的 Hugging Face safetensors 格式提供 MedSigLIP 和 MedGemma。

开发者正在用 MedGemma 和 MedSigLIP 构建什么

研究人员和开发者一直在探索 MedGemma 模型在其用例中的应用，并发现这些模型善于解决一些关键问题。美国马萨诸塞州 DeepHealth 的开发者一直在探索使用 MedSigLIP 来改进其胸部 X 光分诊和结节检测。台湾长庚纪念医院的研究人员指出，MedGemma 能很好地处理繁体中文医学文献，并能良好回应医务人员的问题。印度古尔冈 Tap Health 的开发者评价了 MedGemma 出色的医学基础能力，指出其在需要对临床语境保持敏感的任务中具有可靠性，例如总结病程记录或提出符合指南的提示。

随着开发者使用 MedGemma 和 MedSigLIP 创建下一代健康 AI 工具，我们很高兴继续了解这些以及其他用例。

播放静音循环视频暂停静音循环视频

取消视频静音将视频静音

开始使用并探索

为帮助开发者快速上手，我们在 GitHub 上为 MedGemma 和 MedSigLIP 提供了详细的 notebook，演示如何在 Hugging Face 上创建 MedSigLIP 和 MedGemma 实例，用于推理和微调。当开发者准备好进行规模化部署时，MedGemma 和 MedSigLIP 可以作为专用端点无缝部署在 Vertex AI 中；我们还在 GitHub 中提供了如何在这些端点上运行推理的示例。我们还在 HAI-DEF Hugging Face 演示集合中新增了一个 demo，展示如何将 MedGemma 构建到应用中，以便在患者就诊预约前简化就诊前信息收集。

播放静音循环视频暂停静音循环视频

取消视频静音静音视频

此演示展示了如何将 MedGemma 构建到应用程序中，以便在患者就诊前简化就诊前信息收集流程。该演示的代码可在其 Hugging Face 网站上获取。

请参考下表，了解 MedGemma 系列中的哪款模型最适合您的用例。

* 对于不需要语言对齐的病理学专用应用，Path Foundation 可在数据高效分类方面提供高性能，并且计算需求更低。

** Fast Healthcare Interoperability Resources (FHIR) 记录是基于文本的，但具有独特的结构。电子健康记录数据仅被纳入 MedGemma 27B 多模态模型的训练中。

请访问 HAI-DEF 网站以获取这些资源，并了解更多关于 MedGemma 系列以及其他 Health AI Developer Foundations 模型的信息。HAI-DEF 论坛可用于提问或反馈。

关于训练数据集的说明

模型使用公共和私有的去标识化数据集混合训练而成。Google 及其合作伙伴使用经过严格匿名化或去标识化处理的数据集，以确保对个体研究参与者和患者隐私的保护。

免责声明

MedGemma 和 MedSigLIP 旨在作为一个起点，用于支持高效开发涉及医学文本和图像的下游医疗保健应用。MedGemma 和 MedSigLIP 不适合在开发者未针对其具体用例进行适当验证、适配和/或作出有意义修改的情况下使用。这些模型生成的输出不旨在直接用于临床诊断、患者管理决策、治疗建议或任何其他直接临床实践应用。性能基准突出了在相关基准上的基础能力，但即使对于构成训练数据相当大一部分的图像和文本领域，也可能出现不准确的模型输出。所有模型输出都应视为初步结果，并需要独立验证、临床关联以及进一步调查

致谢

MedGemma 是 Google Research 与 Google DeepMind 合作的成果。我们感谢为这项工作做出贡献的众多人员，包括 Google Health AI 和 Gemma 团队的工程及跨职能成员，以及 Google Research 和 Google DeepMind 的赞助方。

标签：

生成式 AI
健康与生物科学
机器智能

快速链接

MedGemma 技术报告
正文：HAI-DEF
Hugging Face 上的 MedGemma
GitHub 上的 MedGemma
GitHub 上的 MedSigLIP

× ❮ ❯

MedGemma：我们用于健康 AI 开发的最强大开源模型

中文内容

MedGemma：我们用于健康 AI 开发的最强大开放模型

快速链接

MedGemma：面向健康领域的多模态生成模型

MedSigLIP：面向医疗健康的专用图像编码器

开放模型的力量

开发者正在用 MedGemma 和 MedSigLIP 构建什么

开始使用并探索

关于训练数据集的说明

免责声明

致谢

快速链接

原文标题