AI在生物科学领域再次取得重大突破!

美国时间11月30日,谷歌母公司Alphabet旗下人工智能公司DeepMind公开宣布,生物学界50年来的重大难题——蛋白质折叠预测,已被其成功攻克。

而攻克这一难题的正是其2018年一经推出便震惊科学界的AI系统——AlphaFold。

DeepMind在官方博客中称:AlphaFold的最新版本,在通过氨基酸序列精确预测蛋白质折叠结构方面,已经获得权威蛋白质结构预测评估机构(Critical Assessment of protein Structure Prediction,CASP)的认可。

此消息一出,立刻登上了Nature杂志封面,标题直接评论为:“它将改变一切!”。

同一时间,谷歌CEO兼首席执行官桑达尔·皮查伊 (Sundar Pichai)、斯坦福教授李飞飞、马斯克等众多科技大佬也在第一时间转推祝贺!

那么这场惊动科技圈、生物学界和科学界的重大突破,到底是一项怎样的研究?

AlphaFold:精确度高达92.4GDT

首先要了解为什么要预测蛋白质折叠结构?

众多周知,蛋白质对于生命至关重要。几乎所有疾病,包括癌症、痴呆症都与蛋白质的功能有关。而蛋白质的功能由它的3D结构决定。

1972年诺贝尔化学奖得主克里斯蒂安·安芬森(Christian Anfinsen)曾提出,基于蛋白质的1D氨基酸序列可计算并预测蛋白质的3D结构。

但一个现实挑战是,蛋白质的3D结构在形成之前会有数以亿计的折叠方式。

美国分子生物学家Cyrus Levinthal指出,如果用蛮力来计算蛋白质所有可能的构型所需要的时间可能比宇宙的时间都要长,一个典型的蛋白质可能有10∧300种可能的构型。

因此,从1972年至今,如何准确预测蛋白质的折叠方式一直是生物学界的一项重大挑战。

然而,困扰生物学界50年的重大挑战昨日被DeepMind的成功攻克。该公司的最新AlphaFold系统,在第14次CASP评估中的总体中位数得分达到了92.4GDT。

这意味着AlphaFold预测的平均误差(RMSD)仅为1.6 埃(1埃等于0.1nm),相当于一个原子的宽度。

更重要的是,即使对于最具挑战性的蛋白质——自由建模类蛋白质 ,AlphaFold的中值得分也达到87.0 GDT

CASP中自由建模类预测精度值不断提高(GDT)

自由建模类蛋白质靶标的两个示例

对此,CASP主席John Moult教授在新闻发布会上说,DeepMind的AlphaFold系统在蛋白质结构预测中达到了无与伦比的准确性。50年来,计算机科学领域的巨大挑战已得到很大程度的解决。

需要说明的是,CASP是评估蛋白质结构预测技术全球范围内最权威的机构。它由John Moult和Krzysztof Fidelis两位教授创立于1994年,每两年进行一次盲审。其中,GDT(Global Distance Test ) 是CASP 用来测量预测准确性的主要指标,其范围是从0-100。

简单地说,GDT 可以大致地被认为是氨基酸残基在阈值距离内与正确位置的百分比,90分左右的 GDT 可以被认为是与实验方法得到的结果相竞争的。

对此,CALICO创始人兼首席执行官亚瑟·D·莱文森高度评价称:AlphaFold是上一代产品中的佼佼者,它以惊人的速度和精度预测蛋白质结构。这一飞跃证明了计算方法将转变生物学研究,并为加速药物发现过程具有广阔的前景。

AlphaFold背后的AI机制

折叠的蛋白质可以看作是一个“空间图形”,其中残基是节点和边紧密连接在一起。

该图代表了AlphaFold系统的神经网络模型体系结构。该模型对蛋白质序列和氨基酸残基进行操作——在两种表示之间传递迭代信息以生成结构。

这一过程对于理解蛋白质内部的物理相互作用以及它们的进化史很重要。

对于AlphaFold的最新版本,研究人员创建了一个基于注意力机制的神经网络系统,经过端到端的训练来试图解释这个图的结构,同时对它所构建的隐式图进行推理。它通过使用多重序列对齐 (MSA) 和氨基酸残基对的表示来精化这个图形结构。

通过迭代这个过程,系统可以对蛋白质的基本物理结构做出准确的预测,并能够在几天的时间内确定高度精确的结构。此外,AlphaFold 还可以使用内部置信度来预测每个预测的蛋白质结构的哪些部分是可靠的。

AlphaFold系统所使用的数据,来自包括约170,000个蛋白质结构,以及未知结构的蛋白质序列的大型数据库。在训练时,它使用了大约128个 TPU v3内核 (大致相当于100-200个GPU) ,并仅运行了数周。这在当今机器学习中使用的大多数最先进的大型模型的上下文中是相对较小的计算量。

第二代AlphaFold

DeepMind联合创始人兼首席,执行官Demis Hassabis表示:“ DeepMind的最终愿景一直是构建通用AI,以此加快科学发现的步伐,帮助我们更好地了解周围的世界”。

此次,AlphaFold系统攻克50年来的重大难题,意味着DeepMind又朝这一愿景迈出了坚实的一步。

2018年,AlphaFold首次推出便一鸣惊人。在当时参加的“蛋白质结构预测奥运会”CASP比赛中,AlphaFold在所有参赛者中达到了最高的精确度,而且是第二名的8倍之多。

经过两年的努力,DeepMind基于新的深度学习结构体系更新了AlphaFold,再次刷新了自己的记录——从不足60GDT一跃上升为92.4GDT。

而与其他同类AI相比,AlphaFold的准确率也同样遥遥领先。

DeepMind开发团队表示,AlphaFold之能够达到前所未有的精确度,其研究方法是受到了来自生物学、物理学和机器学习领域的启发,另外过去半个多世纪有关蛋白质折叠的研究成果野发挥了重要作用。

作为科学界的AI工具,AlphaFold的应用场景和价值已经得以显现。

在今年疫情不断蔓延下,DeepMind研究人员利用AlphaFold预测了冠状病毒SARS-CoV-2的几种蛋白质结构,包括ORF3a、ORF8等。

尽管这点蛋白结构具有挑战性且相关序列很少,但与实验确定的结构相比,AlphaFold在两个预测中均获得了很高的准确性。

除了加深对已知疾病的了解之外,AlphaFold的应用潜力还将扩展到未知的生物学领域。

由于DNA指定了构成蛋白质结构的氨基酸序列,研究人员从自然界大规模读取蛋白质序列,可能要在数以亿计的通用蛋白质数据库(UniProt)中进行计数。更重要的是,该蛋白质数据库可能只有约170000存在3D结构。

而AlphaFold这样的AI技术可以帮助研究人员发现尚未确定的蛋白质。

引用链接:

https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

https://www.cnbc.com/2020/11/30/deepmind-solves-protein-folding-grand-challenge-with-alphafold-ai.html

https://www.nature.com/articles/d41586-020-03348-4

雷锋网雷锋网雷锋网