中文内容
开发新型蛋白质疗法和催化剂涉及一项具有挑战性的任务:设计蛋白质结合物,即能够与靶标蛋白或小分子结合的蛋白质。针对设计出的结合物,其可能的氨基酸序列排列组合及相应的三维蛋白质结构搜索空间极为庞大,而要实现强效且特异的结合,则需要精心优化蛋白质结合物与靶标之间的相互作用。
为应对这些挑战,NVIDIA 推出了 Proteina-Complexa,这是一种能够从头设计蛋白质结合物和酶的生成式模型。
在本文中,我们将详细介绍 Proteina-Complexa 背后的关键技术,探讨其主要应用场景,并重点展示所生成蛋白质结合物的广泛实验验证结果。此外,我们还将提供分步指南,指导您如何使用命令行界面生成您自己的结合物。
Proteina-Complexa 的核心技术
Proteina-Complexa 的性能依赖于三个独立的技术组件:基础生成模型、训练数据集以及推理时计算扩展的集成。

基于 La-Proteina 模型构建,Proteina-Complexa 采用部分潜在流匹配框架,同时生成全原子尺度的结合物结构(蛋白质主链和侧链)及其对应的氨基酸序列,这一过程称为协同设计。在该方法中,主链的α碳原子在三维笛卡尔空间中进行显式建模,而所有其他原子(侧链及非α碳原子)和氨基酸序列则通过自编码器压缩至一个学习到的潜在空间中。这种方法在原子级保真度与计算可行性之间取得了平衡。
传统的计算工作流通常将结合物设计视为一个分散的流程,往往依赖独立的模型分别生成主链和序列。尽管这些模块化方法也能取得显著效果,但协同设计实现了原子层面的推理。通过同时生成氨基酸序列与全原子结构(主链和侧链),Proteina-Complexa 确保了化学特性与三维几何结构的紧密耦合。这种集成化生成方式使得设计出的精确、高亲和力界面天然地针对折叠与合成进行了优化。
训练用于蛋白质结合物设计的生成模型需要大量关于结合物及其靶点的结构数据。Proteina-Complexa 的训练使用了来自 Protein Data Bank (PDB)、AlphaFold Protein Structure Database、PLINDER 以及最新发布的 Teddymer 数据集中超过 100 万条经过整理的高质量实验与预测结构。
Proteina-Complexa 模型还引入了一种结合物设计新方法,将利用蛋白质结合物结构知识的生成方法与推理阶段算力扩展相统一,从而在推理过程中迭代优化设计。在结合物生成期间,“推理”搜索算法(例如 Beam Search、Best-of-N)会在中间步骤评估与优化候选方案,针对困难靶点投入额外算力,同时保持利用蛋白质结构知识的计算效率。
这种全新的统一方法提升了模型的计算效率与所生成结合物的质量,其表现已通过计算成功指标及经实验验证的靶点结合能力进行衡量。
Proteina-Complexa 的应用场景
Proteina-Complexa 的应用场景涵盖针对蛋白质靶点和小分子靶点的蛋白质结合物设计,以及酶设计。
针对蛋白质靶点的蛋白质结合物
您可以使用 Proteina-Complexa 针对涵盖肿瘤学、免疫学和神经病学等适应症的疾病相关靶点,设计从头蛋白质结合物。Proteina-Complexa 生成的结合物具备完整的原子级细节,包括蛋白质骨架、侧链与氨基酸序列,从而无需经过中间建模步骤即可直接移交实验测试。
该应用场景已与来自 Manifold Bio、Novo Nordisk、Viva Biotech 和 Duke University 的合作者共同完成实验验证。
图2展示了由Proteina-Complexa生成的以下结合蛋白:
- 极具挑战性的TNF-alpha三链蛋白靶点(a),采用表面表示,生成的结合蛋白以紫色显示
- Claudin-1蛋白靶点(b)以灰色表面表示;局部放大图展示了靶点与结合蛋白界面间的红色氢键
- 灰色小分子靶点(c),生成的结合蛋白以紫色/金色显示

针对小分子靶点的结合蛋白
您可以使用Proteina-Complexa设计能够与特定小分子结合的蛋白质。其应用包括靶向药物递送、生物传感器和前药激活。
该应用案例已与剑桥大学合作完成实验验证。
酶设计
给定特定的酶活性位点(即负责催化化学反应的氨基酸残基的三维排列),您可以使用 Proteina-Complexa 生成结构多样的蛋白质,并将该活性位点结构整合其中。这一能力使得针对工业生物催化、环境修复和合成生物学应用的从头酶设计成为可能。
实验验证
NVIDIA 团队与多家外部合作伙伴合作,通过大量湿实验验证了由 Proteina-Complexa 生成的从头设计蛋白质。总体而言,Proteina-Complexa 生成了数千万个初始计算机模拟候选分子。经过筛选后,约 100 万个结合候选分子被针对 133 种不同的蛋白质靶标进行了实验测试,这些靶标涵盖了成熟的基准靶标以及此前尚无已知结合剂的具有重要治疗意义的靶标。
利用最先进的多重噬菌体筛选技术开展了大规模实验,以测量所有候选分子针对所有靶标的结合命中率,这代表了迄今为止规模最大的结合剂设计基准测试之一。
此外,利用表面等离子体共振和蛋白质印迹技术,对选定的目标靶标进行了定量结合动力学测量。生成的蛋白质表达良好,展现出高折叠稳定性,且 Proteina-Complexa 能够针对大多数靶标产生结合剂,包括具有纳摩尔和皮摩尔亲和力的结合剂。例如,Proteina-Complexa 针对 Activin Receptor Type-2A 生成了强效结合剂,该受体是以肌肉萎缩为特征的疾病中极具前景的治疗靶点,而文献中此前尚无类似微型结合剂的报道。
除了蛋白质靶标外,该团队还通过设计能够结合红细胞表面糖分子的蛋白质,拓展了 Proteina-Complexa 的能力边界。设计能够粘附糖类的蛋白质是一项重大挑战,因为碳水化合物分子体积小、极性高,且表面覆盖着致密的水分子层,这通常会阻碍蛋白质形成稳定的附着。
尽管现有的 AI 工具主要在疏水(斥水)表面取得成功,但我们的系统针对这一高难度的糖结合任务生成了 24 个候选分子。在实验室检测中,其中 4 个设计展现出强烈的凝集信号,其促使红细胞聚集的效率高于实验室目前常用的天然蛋白质(即凝集素)。
进一步的生物层干涉技术明确证实了先导候选物与碳水化合物靶点的直接结合。通过成功结合这些高极性靶点,Proteina-Complexa 证明了其能够攻克此前被认为几乎无法进行设计的复杂医疗靶点。
欲了解更多信息,请参阅《Latent Generative Search unlocks de novo Design of Untapped Biomolecular Interactions at Scale》。
如何使用 Proteina-Complexa 生成您自己的蛋白质结合物
以下示例使用 Proteina-Complexa 命令行界面。
前提条件
- 熟悉 Python、YAML 配置文件以及基础蛋白质结构概念
- 可使用至少一块 NVIDIA A100、H100 或更新型号的 GPU
安装与设置
步骤 1:下载代码
# Clone the repository git clone https://github.com/NVIDIA-Digital-Bio/Proteina-Complexa cd Proteina-Complexa
步骤 2:配置环境
使用 UV 包管理器:
# Create a virtual environment and install packages ./env/build_uv_env.sh source .venv/bin/activate # Create the environment configuration file (.env) complexa init
编辑环境配置文件(.env)并设置相应的环境变量路径:
LOCAL_CODE_PATH=/path/to/Proteina-Complexa/ LOCAL_DATA_PATH=/path/to/Proteina-Complexa/assets
加载环境配置:
# Create the shell set up script complexa init uv # Load the environment variables into the current session source env.sh
步骤 3:下载模型检查点
# Download Proteina-Complexa model checkpoints complexa download --complexa-all # Download community model checkpoints complexa download --all
步骤 4:验证您的配置
complexa validate design configs/search_binder_local_pipeline.yaml
如何为蛋白质靶点设计结合蛋白
本示例为PD-L1(一种经验证的治疗靶点)设计结合蛋白。
步骤1:添加靶蛋白、靶点信息及结合蛋白长度
请注意,PD-L1示例无需执行此步骤,因为靶蛋白已预先添加。
complexa target add pdl1 \
--target-path /path/to/your/pdl1.pdb \
--target-input A1-150 \
--hotspot-residues A45 A67 A89 \
--binder-length 60 120
步骤2:确认靶蛋白已成功添加
complexa target list complexa target show 02_PDL1
步骤3:运行完整设计流程:生成 -> 过滤 -> 评估 -> 分析
complexa design configs/search_binder_local_pipeline.yaml \ ++run_name=pdl1_design \ ++generation.task_name=02_PDL1
步骤4:监控流程运行进度
complexa status
complexa design 命令按顺序执行全部四个流程阶段。++key=value 语法通过 Hydra 在命令行中覆盖 YAML 配置参数。
在本例中,该流程使用 Proteina-Complexa 生成候选结合蛋白,依据 AlphaFold2 奖励分数进行过滤,通过 ProteinMPNN 进行序列重设计并结合结构预测进行重折叠来评估优选候选分子,最终输出包含全部指标的汇总 CSV 文件。
您也可以单独运行每个阶段:
complexa generate configs/search_binder_local_pipeline.yaml # Generate binder structures complexa filter configs/search_binder_local_pipeline.yaml # Filter by reward scores complexa evaluate configs/search_binder_local_pipeline.yaml # Evaluate with refolding complexa analyze configs/search_binder_local_pipeline.yaml # Aggregate results
如何为小分子靶点设计结合蛋白
配体结合蛋白工作流使用相同的四阶段流水线,但采用不同的配置文件,该文件指向配体-靶点模型检查点。本示例为 S-腺苷甲硫氨酸(SAM)设计结合蛋白,SAM 是一种与氨基丁酸转移酶 CntL 结合的小分子(PDB 编号 7C7M)。
步骤 1:添加小分子靶点
请注意,SAM 示例无需执行此步骤,因为目标配体已预先添加。
complexa target add sam \
--target-path /path/to/your/7C7M.pdb \
--ligand SAM \
--binder-length 100 \
--dict configs/targets/ligand_targets_dict.yaml
步骤 2:验证靶点是否添加成功
# List all ligand targets in ligand_targets_dict.yaml complexa target list --dict configs/targets/ligand_targets_dict.yaml # Show details for the ligand in 7C7M complexa target show 42_7C7M_LIGAND --dict configs/targets/ligand_targets_dict.yaml
步骤 3:运行配体结合蛋白设计流水线
complexa design configs/search_ligand_binder_local_pipeline.yaml \ ++run_name=sam_design \ ++generation.task_name=42_7C7M_LIGAND
流水线各阶段(生成、过滤、评估、分析)与蛋白质靶点工作流完全一致。唯一的区别在于配置文件(用于选择配体-靶点检查点)以及靶点指定格式。
请注意以下要求:
- Proteina-Complexa 专为在单卡或多 GPU 机器上本地运行而设计,同时也支持在多机集群上运行。
- 支持基于 Docker 和 UV 的虚拟环境。
开始蛋白质结合体设计
Proteina-Complexa 是计算蛋白质结合体设计领域的一项新进展,它将全原子结构与序列的协同设计与推理时计算相结合,能够为蛋白质和小分子靶点生成高质量结合体,同时还可实现酶活性位点的精准支架构建。
通过开源代码、训练好的模型检查点、数据集以及详细阐述创新点的研究论文,我们旨在为研发下一代蛋白质疗法、催化剂和生物传感器的研究人员与开发者提供可定制的基础平台。
准备好开始了吗?
- 运行推理:为您的靶点生成高质量的全原子结合体。
- 训练并微调模型:针对您的具体应用场景适配 Proteina-Complexa 模型。
查阅以下资源:
- NVIDIA-Digital-Bio/Proteina-Complexa GitHub 仓库,包含源代码(Apache 2.0 许可证)
- NGC 上的模型检查点(NVIDIA Open Model License)
- Hugging Face 上的模型检查点(NVIDIA Open Model License)
- 基于生成式预训练与测试时计算扩展原子级蛋白质结合物设计
- 潜空间生成搜索解锁大规模未开发生物分子相互作用的从头设计
我们诚邀您加入来自 Manifold Bio、Novo Nordisk、Viva Biotech、Duke University、University of Cambridge、LMU Munich 及 University of Bonn 的合作团队,共同探索 Proteina-Complexa 在生成蛋白质结合物等方面的能力。
致谢
我们谨向以下人员对本文章的支持与贡献表示感谢:Micha Livne, Tomas Geffner, Zhonglin Cao, Guoqing Zhou, Kushal Shah, Quiara Neam, Xi Chen, Tianjing Zhang, Pia Hardy, Alejandra Rico, Emine Kucukbenli 和 Arash Vahdat。
标签
























