元鉴
返回中文阅读流

NVIDIA Developer Blog

借助 NVIDIA RTX PRO 4500 Blackwell 更快运行关键基因组学和蛋白质折叠工作负载

精准医学依赖两项基础能力:在基因组层面理解疾病,并在分子层面识别治疗方法。

中文内容

已翻译official company source英文原文2026-06-05

精准医学依赖两项基础能力:在基因组层面理解疾病,并在分子层面识别治疗方法。

NVIDIA 对精准医学的贡献远不止加速计算,它提供了一个全栈平台,可将硬件和软件进展直接转化为医疗健康成果。

人类基因组测序最初耗时十多年,如今可在数小时内完成。这一巨大转变不仅是一项技术里程碑,还使更早检测、更快诊断和更有针对性的疗法成为可能,从根本上改变了疾病的理解和治疗方式。

测序速度的提升已将基因组学瓶颈从数据生成转移到数据分析。只有下游分析能够跟上节奏,更快的测序才有价值。临床医生需要更快地做出治疗决策,尤其是在肿瘤学或新生儿重症监护病房(NICU)等高度时间敏感的场景中,每一分钟都至关重要。

另一方面,表征蛋白质结构这一对药物开发至关重要的传统过程,曾经需要多年繁重的实验工作,而 AlphaFold 等新的基于 AI 的方法已将其缩短至数分钟或数小时。这一转变通过显著减少识别治疗候选物的时间和成本,并支持高通量筛选,加速了药物发现。

基因组学帮助你理解疾病,蛋白质结构帮助你找到治疗它的方法。它们是同一旅程的两个阶段。

本文探讨 NVIDIA BioNeMo 平台的最新进展,包括 NVIDIA Parabricks,以及近期发布的 RTX PRO 4500 Blackwell Server Edition,如何帮助医疗健康和生命科学领域的研究人员与临床医生以更快速度、更高准确性和显著更低的计算成本开展工作。

NVIDIA RTX PRO 4500 Blackwell 上的 NVIDIA Parabricks

NVIDIA Parabricks 是一种加速基因组分析解决方案,在解决这一数据分析瓶颈方面发挥关键作用。通过提供可信开源工具的 GPU 加速版本,Parabricks 将分析时间从数小时缩短至数分钟,使研究人员能够更快发现生物学洞察,临床医生能够更快做出决策。

NVIDIA RTX PRO 4500 Blackwell Server Edition GPU 是 RTX PRO 数据中心产品组合的最新成员。该紧凑、节能的平台基于 NVIDIA Blackwell 架构,为部署在云、数据中心和边缘端的广泛工作负载提供强大计算能力,其中包括提升 NVIDIA Parabricks 的性能。

Image of NVIDIA RTX PRO 4500 Blackwell Server Edition GPUImage of NVIDIA RTX PRO 4500 Blackwell Server Edition GPU
图 1. NVIDIA RTX PRO 4500 Blackwell Server Edition GPU

加速比对和变异检出:Minimap2、fq2bam 和 DeepVariant

通常,比对和变异检出等耗时任务在传统 CPU 方法上可能需要数小时。Minimap2 和 fq2bam 被广泛用于比对,而 DeepVariant 是一种常用的变异检出工具。Minimap2 是一种序列比对工具,用于将 DNA 或 RNA 测序读段比对到参考基因组;fq2bam 是 Parabricks 对 BWA-MEM 的封装,包含 GATK 最佳实践。DeepVariant 是 Google 基于深度学习的生殖系变异(即遗传性疾病)变异检出器。

Parabricks 在各类 GPU 架构上实现显著加速,并持续优化以获得进一步加速。对于序列比对和变异检出应用,RTX PRO 4500 Blackwell 相比上一代 GPU 版本提供了性能提升。与 NVIDIA L4 Tensor Core GPU 相比,Minimap2 和 DeepVariant 均大约快 2 倍。对于 fq2bam,RTX PRO 4500 比 NVIDIA L4 快 2.4 倍。

Parabricks v4.7 基准测试

ToolNVIDIA RTX PRO 4500
2 GPUs
(mins)NVIDIA L4
2 GPUs
(mins)Minimap215.830.1fq2bam (BWA-MEM – Paired End)13.432.5DeepVariant(Short-Read)7.515.0
表 1. 时间单位为分钟。数据由 NVIDIA Perflab 团队使用 Parabricks v4.7.0 在内部节点上采集。仅供参考。速度可能因数据集、GPU 实例、主机 CPU、内存可用性及其他因素而异。DeepVariant 和 fq2bam 使用 Illumina 数据进行 30× 全基因组测序。Minimap2 使用 Pacbio 数据进行 35× 全基因组测序。

PacBio 是一家基因组测序公司,以其长读长测序技术闻名。通过集成 RTX PRO 4500 Blackwell,PacBio 在碱基识别方面实现了显著加速;碱基识别是将仪器原始输出转换为可用于下游分析的序列数据的第一步计算流程。

“PacBio HiFi 测序要求准确性不能妥协,同时速度要跟上生物学进程。RTX PRO 4500 Blackwell Server Edition GPU 两者兼备,”Pacific Biosciences 仪器分析高级总监 Armin Töpfer 表示。

他说:“与 L4 GPU 相比,我们看到碱基识别吞吐量提升超过 2 倍,同时其功耗和尺寸特征为测序分析发生的方式和地点开启了新的可能性。再加上 Parabricks minimap2 和 DeepVariant 工具的速度提升,让我们对平台的未来感到兴奋。”

开始使用 Minimap2

# This command assumes all the inputs are in the current working directory and all the outputs go to the same place.
docker run --rm --gpus all --volume $(pwd):/workdir --volume $(pwd):/outputdir \
    --workdir /workdir \
    nvcr.io/nvidia/clara/clara-parabricks:4.7.0-1 \
    pbrun minimap2 \
    --ref /workdir/${REFERENCE_FILE} \
    --in-fq /workdir/${INPUT_FASTQ} \
    --out-bam /outputdir/${OUTPUT_BAM}

开始使用 fq2bam(BWA-MEM)

# This command assumes all the inputs are in the current working directory and all the outputs go to the same place.
docker run --rm --gpus all --volume $(pwd):/workdir --volume $(pwd):/outputdir \
    --workdir /workdir \
    nvcr.io/nvidia/clara/clara-parabricks:4.7.0-1 \
    pbrun fq2bam \
    --ref /workdir/${REFERENCE_FILE} \
    --in-fq /workdir/${INPUT_FASTQ_1} /workdir/${INPUT_FASTQ_2}  \
    --knownSites /workdir/${KNOWN_SITES_FILE} \
    --out-bam /outputdir/${OUTPUT_BAM} \
    --out-recal-file /outputdir/${OUTPUT_RECAL_FILE}

开始使用 DeepVariant

# This command assumes all the inputs are in the current working directory and all the outputs go to the same place.
docker run --rm --gpus all --volume $(pwd):/workdir --volume $(pwd):/outputdir \
    --workdir /workdir \
    nvcr.io/nvidia/clara/clara-parabricks:4.7.0-1 \
    pbrun deepvariant \
    --ref /workdir/${REFERENCE_FILE} \
    --in-bam /workdir/${INPUT_BAM} \
    --out-variants /outputdir/${OUTPUT_VCF}

借助 Openfold3 和 cuEquivariance 推进结构生物学

Openfold3 与 cuEquivariance 的集成进一步增强了 RTX PRO 平台在蛋白质结构推断方面的能力。借助最新一代 Blackwell Tensor Core,RTX PRO 4500 Blackwell 实现显著加速,相较 L4 基线最高可提升 2.3 倍,使其能够处理多达 1,500 个氨基酸的蛋白质。

Openfold3 + cuEQ 0.10 (Seconds)Protein SizeL4
1 GPU
(seconds)RTX PRO 4500 BSE
1 GPU
(seconds)Speedup25619.918.712.3x51259.4225.682.3x1024198.9084.802.4x1536453.47194.282.3x
表 2. 时间单位为秒。所用数据集包括:使用 colabfold 数据库和 mmseqs2 从抽样的 CASP14 数据集中生成的输入 MSA。推断使用 BF16 精度。

Smith-Waterman 比对的高性能

借助 Blackwell 架构中引入的用于动态规划的新 DPX 指令集,RTX PRO 6000 和 RTX PRO 4500 GPU 为 Smith-Waterman 比对提供了巨大吞吐量。通过最新 CUDA 13.2,这一硬件加速功能现已在 Math API 和 PTX 9.2 层级向所有开发者广泛开放,为支持 32 位、16 位和 8 位精度的 DNA、RNA 和蛋白质比对方法带来新的加速水平。

RTX PRO 4500 Blackwell 现在比 L4 快 9.6 倍,并且性能与使用上一代 DPX 的 H100 SXM 相当。如需更高吞吐量,RTX PRO 6000 BSE 的性能比 RTX PRO 4500 BSE 高 2.36 倍。

Smith-Waterman AlignmentPerformance 
(GCUPS)SpeedupCPU baseline (256 threads)2561.0xNVIDIA L45242.0xNVIDIA RTX PRO 4500 BSE492319.2x
表 3. 性能使用每秒更新的 giga-cells 进行归一化。CPU 基线使用 SSW 库测量。仿射缺口比对(得分计算)输入权重来自 BWA。输入数据集:HG002(NA24385),使用 Illumina 测序仪的双端协议。

除原始速度外,在该 Smith-Waterman 工作负载中,RTX PRO 4500 的功耗最多比 H100 SXM 低 4.3 倍,同时提供相当的性能。

了解更多

了解 Parabricks、OpenFold 3 和 RTX PRO 4500 Blackwell Server Edition 如何加速你的精准医学旅程。

加速基因组学与 AI 赋能的结构生物学正在融合,重新定义精准医学中的可能性,而进展速度仍在加快。

从在 NICU 中将基因组分析从数小时缩短到数分钟,到生成并通过实验验证针对 130 多个药物靶点的蛋白质结合物,支持这项工作的这个平台已不再是研究中的新奇事物;它由 NVIDIA 实现。

  • 试用 Parabricks
  • 了解更多关于 RTX PRO 4500 Blackwell Server Edition 的信息

Like

标签

原文标题

Run Key Genomics and Protein Folding Workloads Faster with NVIDIA RTX PRO 4500 Blackwell