中文内容

已翻译official company source英文原文2026-04-30

2026 年 4 月 30 日正文：Science

通过 AI 联合临床医生赋能医疗保健新模式

Alan Karthikesalingam、Vivek Natarajan 和 Pushmeet Kohli

An abstract network diagram featuring a central image of a clinician in blue scrubs with a stethoscope, connected by lines to several blurred portraits of diverse people and icons labeled "Agent." Small text bubbles indicate AI functions li

全球各地的卫生系统都在努力实现更好的结果、更低的成本，并改善患者和临床医生的体验。然而，进展受到全球临床专家短缺的制约，世界卫生组织预测，到 2030 年，卫生工作者缺口将超过 1000 万。

尽管 AI 常被视为弥合这一缺口的关键，但它尚未能够完全满足临床医生和患者的需求。因此，今天我们宣布启动 AI co-clinician 研究计划，以探索 AI 如何更好地增强医生的专业能力，并为患者提供更高质量的护理。

在 Google DeepMind，我们在医疗 AI 方面的历程已经从使用 MedPaLM 掌握医学知识的考试式测试，发展到使用 AMIE 在基于文本的模拟医疗咨询中达到与医生相当的表现，包括在真实世界可行性试验环境中。我们也长期研究临床医生与 AI 系统可能如何协同工作。

我们假设，医疗服务交付的下一阶段演进将包含“三方护理”，即 AI 代理可以在医生的临床权威下帮助患者完成其护理旅程。医学一直是一项团队运动，而 AI 代理可以让更多队友加入其中：扩大临床医生的服务范围，同时确保他们保留判断权和控制权。

这构成了我们 AI 协同临床医生研究计划的基础：AI 被设计为护理团队中的协作成员，在专家临床监督下与患者互动。我们在面向临床医生和面向患者的环境中设计并评估了 AI 协同临床医生。兼顾这两种视角，是 AI 提升护理服务质量、成本、可及性和体验的关键。

Advancements in research into medical AI so that they might be more trustworthy and helpful for clinicians in assisting patients. — 推进医学 AI 研究，使其在协助临床医生帮助患者时更值得信赖、更有帮助。

用 AI 协同临床医生增强临床医生能力

对医生而言，工具只有在值得信赖且以事实为基础时才有用。因此，我们研究了 AI 协同临床医生通过呈现高质量证据来支持临床医生的效果。

我们与学术医生合作，改编了“NOHARM”框架，用于测试我们的 AI 是否存在“作为错误”（错误信息）和“不作为错误”（未能呈现关键信息）。

在头对头盲法评估中，医生始终更偏好 AI 协同临床医生的回答，而非领先的证据综合工具的回答。在对 98 个真实的初级保健查询进行客观分析时，我们的系统在 97 个案例中记录到零项关键错误，优于两种被医生广泛使用的 AI 系统。

The study used a blind comparison of 98 realistic primary care queries, which were curated from a diverse range of sources and subsequently refined by a panel of attending physicians. This multi-step iterative process involved comprehensive — 该研究对 98 个真实的初级保健查询进行了盲法比较，这些查询从多种来源中筛选而来，随后由一个主治医师小组进一步完善。这一多步骤迭代过程包括全面的背景研究，以及制定针对特定查询的答案评价指标，以便对临床准确性和遵循最佳实践指南的情况进行严格的专业评估。通过利用这一由专家主导的完善阶段，该方法能够精确刻画特定共识情境下的不作为错误和作为错误，确保评估反映真实世界临床决策的复杂性。

除了可靠地综合临床证据之外，AI 系统还应以医生所要求的精确度回答有关药物和治疗干预的问题。对于 AI 而言，这是一项艰巨的任务，但仍未得到充分探索。为弥补这一空白，我们在 OpenFDA 的 RxQA 问题集上评估了 AI co-clinician；这是一个具有挑战性的基准，旨在评估复杂的药物知识和推理能力。我们看到其在应对这些测试方面取得了显著进展，超越了其他前沿 AI 系统，尤其是在以真实医疗场景中那种开放式方式提出问题时。这些发现凸显了先进 AI 的潜力：随着护理规划和管理对数据密集型要求日益提高，它可以为临床医生提供有益的辅助。

RxQA was originally posed as a multiple-choice question (MCQ) test in which even primary care physicians scored modestly. While our results show significant improvements for AI systems’ MCQ performance in the openly available (OpenFDA) set — RxQA 最初被设定为一项多项选择题（MCQ）测试，在该测试中，即使是初级保健医生的得分也并不高。虽然我们的结果显示，在公开可用的（OpenFDA）RxQA 数据集上，AI 系统的 MCQ 表现有显著提升，但现实世界中临床医生的需求表现为开放式问题，而不是需要从预先设定的选项中识别正确答案。在这项更贴近现实的药物相关开放式问答临床任务中，AI co-clinician 的表现优于现有的前沿模型。综合来看，这些结果表明，在临床推理的这些方面，AI 能够接近人类医生的熟练水平，并且仍有进一步提升的机会。

研究 AI co-clinician 在远程医疗场景中的实时多模态能力

除了面向临床医生的辅助场景外，我们还在研究 AI 共同临床医生在面向患者的研究情境中的表现。专家临床评估传统上包括细微的视觉和听觉线索，例如观察患者的步态、呼吸模式的细微差异，或皮肤变化的外观。虽然既往研究（包括我们与 Beth Israel Deaconess Medical Center 合作开展的研究）表明，在医生预约前进行 AI 文本聊天具有价值，但将交互限制在文本上从根本上限制了 AI 的临床价值。医学并不只是文本；它需要眼睛、耳朵和声音。

这就是为什么我们正在探索实时多模态 AI 作为护理团队辅助组成部分的潜力。基于 Gemini 和 Project Astra 的能力，我们测试了 AI 共同临床医生使用实时音频和视频与患者互动的能力，模拟远程医疗通话，在这些通话中，有能力的 AI 有朝一日可以在专家监督下支持更好的诊断和管理。关于我们的方法和结果的更多细节，请参见我们的技术报告：“Towards Conversational Medical AI with Eyes, Ears and a Voice”

我们与哈佛和斯坦福的学术医生合作，设计了一项随机模拟研究，包含 20 个合成临床场景和 10 名医生“患者演员”。该智能体展示了超越纯文本系统的新能力，例如实时指导患者完成复杂的体格检查。例如，它成功纠正了一名患者的吸入器使用方法，并指导其完成肩部动作以识别肩袖损伤。

尽管关于 AI 有可能达到或超过人类临床表现的讨论十分频繁，但这些高保真模拟更严格地评估了这一前提。我们评估了会诊技能的 140 多个方面，发现专家医生总体上表现优于该 AI 系统，尤其是在识别“危险信号”和指导关键体格检查方面。这一发现表明，这些系统目前最适合作为从业者的辅助工具，而不是临床判断的替代品。与此同时，我们的工作突显了 AI 能力的显著进展：AI co-clinician 在 140 个评估领域中的 68 个方面表现达到或超过了初级保健医生（PCPs）的水平。结果凸显了其广泛前景，并标示出进一步研究能够最有影响力地推进医疗 AI 的具体领域。

Results from a randomized, interface-blinded, crossover simulation study involving 120 hypothetical telemedical encounters performed by real primary care physicians, the AI co-clinician or GPT-realtime. For the evaluation a pool of internal — 一项随机、界面盲法、交叉模拟研究的结果，该研究涉及由真实初级保健医生、AI co-clinician 或 GPT-realtime 完成的 120 次假设性远程医疗就诊。评估中，一组内科住院医师担任患者扮演者，演绎 20 个标准化门诊场景。这些场景涵盖一系列临床病症，专门设计为需要主动的听觉和视觉推理。针对场景定制的标准评估了会诊质量的七个领域，每个项目采用锚定的 0–2 分评分，以区分遗漏、部分完成和完全恰当的表现。误差线对应 95% 置信区间。

下面你可以看到研究团队在这一远程医疗环境中与 AI co-clinician 一起扮演假设患者，突出展示该系统的潜在能力和局限性。

第 1 张，共 3 张

这些视频仅用于研究目的，不涉及真实患者。分享这些视频是为了展示该技术当前的能力和局限性。我们的初始研究合作不涉及所展示的能力，这些能力并非旨在用于疾病的诊断、治愈、缓解、治疗或预防，也不用于提供医疗建议。

这些视频仅用于研究目的，不涉及真实患者。分享这些视频是为了展示当今这项技术的能力和局限性。我们的初始研究合作不涉及所展示的能力，这些能力并非旨在用于疾病的诊断、治愈、缓解、治疗或预防，也不用于提供医疗建议。

通过临床级 AI 的安全防护机制构建信任

将 AI 转化并部署到临床环境中，需要在架构和运营层面采取毫不妥协的安全防护措施。在我们对面向患者的远程医疗对话模拟研究中，AI 共同临床医生采用双智能体架构：一个“Planner”模块持续监控对话，验证“Talker”智能体是否始终处于安全的临床边界内。

同样，为了满足医生的需求，AI co-clinician 优先考虑临床级证据，对检索结果进行验证和引文检查。我们上文报告的评估由医生构建，旨在反映他们在现实世界中的一系列证据需求，并基于假设场景提出问题，以严格评估 AI 的能力。

用于对 AI co-clinician 进行严格现实世界评估的研究合作

为进一步开发和评估 AI co-clinician，我们目前正与学术和研究合作伙伴推进分阶段方法，覆盖全球多样化的医疗环境，包括美国、印度、澳大利亚、新西兰、新加坡和阿联酋。

随着我们推进这些评估阶段，我们将在更多地区深化研究，包括与使命一致的医疗机构和学术医疗中心。我们的目标是确保医疗 AI 按照适用标准负责任地开发和部署，支持全球健康改善。

注意：在现阶段，我们的研究合作并不旨在用于疾病的诊断、治愈、缓解、治疗或预防，也不旨在提供医疗建议。

致谢

我们感谢 Harvard Medical School 和 Stanford Medicine 的研究合作伙伴，以及正在与我们团队开展进一步可信测试者评估的众多医疗中心和护理组织。本项目涉及与 Google DeepMind、Google Research、Google Cloud 和 Google for Health 的多个团队合作，我们感谢团队伙伴们富有洞见的讨论和贡献。特别是，如果没有 Aniruddh Raghu、Arthur Chen、Charlie Taylor、CJ Park、David Stutz、Devora Berlowitz、Doug Fritz、Dylan Slack、Eliseo Papa、Jack Chen、JD Velasquez、Jing Rong Lim、Katya Tregubova、Kelvin Guu、Meet Shah、Richard Green、Ryutaro Tanno、Sukhdeep Singh、Victoria Johnston、Adam Rodman 的核心研究和工程努力，AI co-clinician 就不可能实现。我们感谢众多合作者的宝贵贡献，包括 Ali Eslami、Aliya Rysbeck，

感谢 James Manyika 和 Demis Hassabis 在整个研究过程中提供的深刻指导和支持。

为医疗保健开发可靠的 AI 工具

2023 年 7 月研究

了解更多

借助 AI 临床助手实现医疗保健新模式