中文内容
AlphaGenome:用于更好理解基因组的 AI
Ziga Avsec 和 Natasha Latysheva
2026 年 1 月更新:这项研究已发表于 Nature。你可以在此阅读完整论文,并在此访问该模型。
基因组是我们细胞的指令手册。它是完整的 DNA 集合,指导着生物体几乎每一个方面,从外观和功能到生长与繁殖。基因组 DNA 序列中的微小变异可能会改变生物体对环境的反应,或改变其对疾病的易感性。但破译基因组指令在分子层面是如何被读取的——以及当发生微小 DNA 变异时会出现什么情况——仍然是生物学中最大的谜团之一。
今天,我们推出 AlphaGenome,这是一款新的人工智能(AI)工具,能够更全面、更准确地预测人类 DNA 序列中的单个变异或突变如何影响调控基因的广泛生物过程。实现这一点的因素包括技术进步,使模型能够处理长 DNA 序列并输出高分辨率预测。
为推动科学研究,我们正通过 AlphaGenome API 以预览形式向非商业研究开放 AlphaGenome,并计划在未来发布该模型。
我们相信,AlphaGenome 可以成为科学界的宝贵资源,帮助科学家更好地理解基因组功能、疾病生物学,并最终推动新的生物学发现和新疗法的开发。
AlphaGenome 的工作原理
我们的 AlphaGenome 模型以长 DNA 序列作为输入——最长可达 100 万个字母,也称为碱基对——并预测表征其调控活性的数千种分子属性。它还可以通过比较突变序列与未突变序列的预测结果,来评估遗传变异或突变的影响。
预测的属性包括:在不同细胞类型和组织中基因从哪里开始、在哪里结束,在哪里发生剪接,产生的 RNA 数量,以及哪些 DNA 碱基是可接近的、彼此接近的,或被特定蛋白质结合。训练数据来自大型公共联盟,包括 ENCODE、GTEx、4D Nucleome 和 FANTOM5,这些联盟通过实验测量了这些属性,涵盖了数百种人类和小鼠细胞类型及组织中基因调控的重要模态。


AlphaGenome 架构使用卷积层来初步检测基因组序列中的短模式,使用 transformers 在序列的所有位置之间传递信息,并使用最后一系列层将检测到的模式转化为不同模态的预测。在训练过程中,对于单个序列,这一计算会分布在多个互连的张量处理单元(TPUs)上进行。
该模型建立在我们此前的基因组学模型 Enformer 基础之上,并与 AlphaMissense 形成互补;AlphaMissense 专门用于分类蛋白质编码区域内变异的影响。这些区域覆盖基因组的 2%。其余 98% 被称为非编码区域,对于协调基因活性至关重要,并包含许多与疾病相关的变异。AlphaGenome 为解读这些广阔序列及其中的变异提供了新的视角。
AlphaGenome 的独特特征
与现有 DNA 序列模型相比,AlphaGenome 具有几项显著特征:
高分辨率下的长序列上下文
我们的模型可分析多达 100 万个 DNA 字母,并以单个字母的分辨率进行预测。长序列上下文对于覆盖从远距离调控基因的区域非常重要,而碱基级分辨率对于捕捉精细的生物学细节非常重要。
以往的模型不得不在序列长度和分辨率之间进行权衡,这限制了它们能够联合建模并准确预测的模态范围。我们的技术进展解决了这一限制,同时并未显著增加训练资源——训练单个 AlphaGenome 模型(不进行蒸馏)耗时四小时,所需计算预算为训练我们最初的 Enformer 模型所用计算预算的一半。
全面的多模态预测
通过实现对长输入序列的高分辨率预测,AlphaGenome 能够预测最广泛多样的模态。由此,AlphaGenome 为科学家提供了关于基因调控复杂步骤的更全面信息。
高效的变异评分
除了预测多种分子属性外,AlphaGenome 还能在一秒内高效评估遗传变异对所有这些属性的影响。它通过将突变序列的预测结果与未突变序列的预测结果进行对比,并针对不同模态采用不同方法高效汇总这种对比来实现这一点。
新型剪接位点建模
许多罕见遗传病,如脊髓性肌萎缩症和某些形式的囊性纤维化,都可能由 RNA 剪接错误引起。RNA 剪接是指 RNA 分子的某些部分被移除或“剪除”,剩余末端重新连接的过程。AlphaGenome 首次能够直接从序列中显式建模这些剪接位点的位置和表达水平,从而更深入地揭示遗传变异对 RNA 剪接的影响。
在各项基准测试中达到最先进性能
AlphaGenome 在广泛的基因组预测基准测试中达到最先进性能,例如预测 DNA 分子的哪些部分会彼此近距离接近、某个遗传变异会增加还是降低某个基因的表达,或它是否会改变该基因的剪接模式。
在对单条 DNA 序列进行预测时,AlphaGenome 在 24 项评估中的 22 项上优于最佳外部模型。而在预测某个变异的调控效应时,它在 26 项评估中的 24 项上达到或超过了表现最佳的外部模型。
该比较纳入了针对单个任务专门设计的模型。AlphaGenome 是唯一能够联合预测所有被评估模态的模型,凸显了其通用性。更多信息请阅读我们的预印本。
统一模型的优势
AlphaGenome 的通用性使科学家能够通过一次 API 调用,同时探索某个变异对多种模态的影响。这意味着科学家可以更快速地生成并检验假设,而不必使用多个模型来研究不同模态。
此外,AlphaGenome 的强大性能表明,它已经学习到了基因调控背景下 DNA 序列的一种相对通用的表征。这使其成为更广泛科研社区可在其基础上继续构建的坚实基础。模型完全发布后,科学家将能够在自己的数据集上对其进行适配和微调,以更好地解决各自独特的研究问题。
最后,这种方法为未来提供了一种灵活且可扩展的架构。通过扩展训练数据,AlphaGenome 的能力可以进一步拓展,从而实现更好的性能、覆盖更多物种,或纳入更多模态,使模型更加全面。
这是该领域的一个里程碑。我们首次拥有了一个单一模型,能够在一整套基因组任务中统一长程上下文、碱基层级精度和最先进性能。
强大的研究工具
AlphaGenome 的预测能力可助力多个研究方向:
- 疾病理解:通过更准确地预测遗传扰动,AlphaGenome 可以帮助研究人员更精准地确定疾病的潜在原因,并更好地解读与某些性状相关的变异所产生的功能影响,从而可能发现新的治疗靶点。我们认为,该模型尤其适合研究可能具有较大效应的罕见变异,例如导致罕见孟德尔遗传病的变异。
- 合成生物学:其预测结果可用于指导设计具有特定调控功能的合成 DNA——例如,只在神经细胞中激活某个基因,而不在肌肉细胞中激活。
- 基础研究:它可以通过协助绘制基因组中关键功能元件的图谱并界定其作用,加速我们对基因组的理解,识别用于调控特定细胞类型功能的最重要 DNA 指令。
例如,我们使用 AlphaGenome 研究了一种癌症相关突变的潜在机制。在一项针对 T 细胞急性淋巴细胞白血病(T-ALL)患者的既有研究中,研究人员观察到基因组中特定位置的突变。使用 AlphaGenome,我们预测这些突变会通过引入 MYB DNA 结合基序来激活附近一个名为 TAL1 的基因,这复现了已知的疾病机制,并凸显了 AlphaGenome 将特定非编码变异与疾病基因关联起来的能力。
AlphaGenome 将成为该领域的强大工具。确定不同非编码变异的相关性可能极具挑战性,尤其是在大规模进行时。该工具将提供解开谜题的关键一环,使我们能够建立更好的联系,以理解癌症等疾病。
当前局限性
AlphaGenome 标志着一项重大进展,但必须承认其当前的局限性。
与其他基于序列的模型一样,准确捕捉非常远距离调控元件的影响,例如相距超过 100,000 个 DNA 字母的调控元件,仍然是一项持续存在的挑战。未来工作的另一项重点是进一步提升模型捕捉细胞和组织特异性模式的能力。
我们尚未针对个人基因组预测来设计或验证 AlphaGenome,而这对 AI 模型而言是一个已知挑战。相反,我们更侧重于表征其在单个遗传变异上的性能。尽管 AlphaGenome 可以预测分子层面的结果,但它并不能完整呈现遗传变异如何导致复杂性状或疾病。这些通常涉及更广泛的生物学过程,例如发育和环境因素,而这些超出了我们模型的直接范围。
我们正在继续改进我们的模型,并收集反馈,以帮助我们弥补这些差距。
助力社区释放 AlphaGenome 的潜力
AlphaGenome 现已可通过我们的 AlphaGenome API 用于非商业用途。请注意,我们模型的预测结果仅供研究使用,并未针对直接临床目的进行设计或验证。
我们邀请全球研究人员就 AlphaGenome 的潜在用例与我们联系,并通过社区论坛提问或分享反馈。
我们希望 AlphaGenome 将成为更好理解基因组的重要工具,并致力于与学术界、产业界和政府组织的外部专家携手合作,确保 AlphaGenome 惠及尽可能多的人。
通过更广泛科学界的共同努力,我们希望它将加深我们对 DNA 序列中编码的复杂细胞过程以及变异影响的理解,并推动基因组学和医疗保健领域令人振奋的新发现。
了解更多关于 AlphaGenome 的信息
致谢
我们感谢 Juanita Bawagan、Arielle Bier、Stephanie Booth、Irina Andronic、Armin Senoner、Dhavanthi Hariharan、Rob Ashley、Agata Laydon 和 Kathryn Tunyasuvunakool 在文本和图表方面提供的帮助。
这项工作得益于 AlphaGenome 共同作者的贡献:Žiga Avsec、Natasha Latysheva、Jun Cheng、Guido Novati、Kyle R. Taylor、Tom Ward、Clare Bycroft、Lauren Nicolaisen、Eirini Arvaniti、Joshua Pan、Raina Thomas、Vincent Dutordoir、Matteo Perino、Soham De、Alexander Karollus、Adam Gayoso、Toby Sargeant、Anne Mottram、Lai Hong Wong、Pavol Drotár、Adam Kosiorek、Andrew Senior、Richard Tanburn、Taylor Applebaum、Souradeep Basu、Demis Hassabis 和 Pushmeet Kohli。
我们还要感谢 Dhavanthi Hariharan、Charlie Taylor、Ottavia Bertolli、Yannis Assael、Alex Botev、Anna Trostanetski、Lucas Tenório、Victoria Johnston、Richard Green、Kathryn Tunyasuvunakool、Molly Beck、Uchechi Okereke、Rachael Tremlett、Sarah Chakera、Ibrahim I. Taskiran、Andreea-Alexandra Muşat、Raiyan Khan、Ren Yi 以及更广泛的 Google DeepMind 团队给予的支持、帮助和反馈。