物理学家使用人工智能来寻找迄今为止最复杂的蛋白质结
? 计算机人工智能系统AlphaFold最近预测了数万种蛋白质的以前未知的三维结构。
?
美因茨约翰内斯·古腾堡大学(JGU)的研究团队专注于具有高置信度分数的子集,研究人员通过算法分析这些预测,发现蛋白质骨架表现出罕见的拓扑复杂性,即打结。
?
其中,研究人员发现了一个71-结,这是迄今为止在蛋白质中发现的最复杂的拓扑结,以及几个由两个甲基转移酶或碳酸酐酶结构域组成的六交叉复合结,每个结构域都包含一个简单的三叶结。这些深深嵌入的复合结显然是通过基因复制和打结二聚体的相互连接而发生的。
?
另外,该团队还报告了两个新的五交叉结,包括第一个51-结。该工作分析的结构列表构成了未来实验研究的基础,以确认这些新型打结拓扑并探索其复杂的折叠机制。
?
该研究以「AlphaFoldpredictsthemostcomplexproteinknotandcompositeproteinknots」为题,于2022年7月13日发布在《ProteinScience》。
?
谷歌DeepMind开发的人工智能(AI)系统AlphaFold两次主导蛋白质结构预测技术(CASP)的关键评估。AlphaFold2是一个深度学习系统,它结合了基于蛋白质结构的进化、物理和几何约束的训练程序。它的特点是预测的迭代细化,并允许使用自蒸馏和自估计准确性从未标记的蛋白质序列中学习,以使用一级结构和同源物的对齐序列直接预测给定蛋白质的所有重原子的3D坐标。
?
AlphaFold2目前已经预测了数十万种蛋白质结构,其中大部分不包含在蛋白质数据库(PDB)中,该数据库主要存档实验确定的结构。因此,AlphaFold的预测数据库可能具有巨大的价值,特别是对于研究不常见但仍与了解蛋白质折叠潜在机制的复杂性具有高度相关性的蛋白质现象。对于在其多肽骨架中包含拓扑结的蛋白质,会出现一个特别令人着迷的现象,即从两端拉出后不会完全解开的蛋白质。
?
在过去的二十年中,仅发现了大约20种不同的含有结的蛋白质家族。然而,打结的蛋白质对蛋白质折叠和进化提出了挑战。模拟算法经常高估蛋白质的打结概率,因为后者低于随机链的打结概率。
?
此外,同源物之间的蛋白质拓扑结构通常相似,这意味着在进化中密切相关的蛋白质中往往会保留打结的折叠。由于这些原因,并且由于天然蛋白质之间打结的罕见性,在预测蛋白质结构的庞大新数据库中可能存在打结拓扑结构引起了人们的浓厚兴趣。
?
目前,在蛋白质中发现的最复杂的结是单个结,在任何投影到平面上都有六个基本交叉点;尚未观察到复合结。
?
复合结的产生机制
?
研究人员通过调查发现了9个以前未知的复合结案例。这些都是两个基本上独立的三叶结存在于一个较长的蛋白质链中的例子。
?
于是他们提出了一种基于基因复制和打结同源二聚体互连来生成这种复合结的新机制。有趣的是,这种机制类似于用于创建第一个人工蛋白质结的策略,其中未打结的二聚体被「连接」以形成三叶草。
?
经过验证,复合三叶结可以认定为俗称的「奶奶结」。复合结的手性与先前报告甲基转移酶和碳酸酐酶中单个三叶结的正手性的结果一致。研究人员在两个不同的蛋白质家族和两种结构变化中观察到了相同的现象,他们认为这是一种产生复合结的潜在机制。
图示:蛋白质P54212(碳酸酐酶)的3D结构(上)和简化表示(下)。
?
蛋白质中的第一个71-结
?
下图描述了蛋白质P73136和Q9PR55,其长度分别为112和89个氨基酸。两者都没有特征,使用PDBeFold无法识别可能的同源物。然而,它们具有48%的序列同一性和71%的二级结构匹配,这表明它们可能是同源物。
?
蛋白质Q9PR55包含最复杂的结,一个71-结,迄今为止已知在残基27和83之间有一个打结的核心。蛋白质P73136的类似结构包含一个51-结,在残基45和94之间有一个打结的核心。以前没有观察到这两种蛋白质具有不同的非平凡拓扑结构的这种同源物对。
?
仔细观察会发现,蛋白质Q9PR55更复杂的拓扑结构是由一个引入额外缠绕的蛋白质片段引起的;71环面结本质上是一个51环面结,在环面上有一个额外的缠绕;两个结都具有正手性。
新的51和52结
?
该团队发现了两个以前未知的具有五个基本交叉点的结,包括第一个51-结。
?
准确性测试
?
由于该发现的新颖性,通过独立方法进行验证将很重要。在实验研究之前,研究人员应用正交计算工具ERRAT来评估预测的打结结构。ERRAT算法评估C、N和O原子之间的非键合接触模式,并与高分辨率结构进行统计比较。通过与AlphaFold(和其他预测方法)中使用的指标不同,它提供了独立的评估。
?
研究人员在打结结构集上运行了ERRAT。剔除某些模型中偶尔出现的扩展末端,所有测试的模型都显示出良好的分数;所有蛋白都有>90%的蛋白质链落在(低于)拒绝不太可能构象的95%阈值内。因此,总体来看,预测的结构是正确的,至少在很大程度上是正确的。
?
然而,在某些情况下,结构的局部区域似乎存在潜在问题。重要的是要注意蛋白质链路径中的微小差异——例如,那些会改变上/下交叉的差异——可能会改变拓扑结构,可能导致结的错误分配。
?
研究人员注意到,对于复合结Q4D5S2,ERRAT程序将残基100-110周围的beta链段标记为结构上可能不正确。值得注意的是,该区域中链的通过对于打结拓扑很重要。
?
结语
?
总之,该团队分析了AlphaFoldAI系统对新拓扑复杂蛋白质的所有蛋白质3D结构预测。我们对AlphaFold提供的数据的完整分析揭示了几种包含深度复杂结的高置信度蛋白质,这些蛋白质适用于对其3D结构的实验验证。
?
在这个数据集中,研究人员发现了一个71-结,这是迄今为止在蛋白质中发现的最复杂的一个,以及同源结构中的一个新的51-结,以及复合蛋白质节的第一个实例。对于后者,研究人员提出了一种通过基因复制创造它们的进化机制。
?
由于蛋白质拓扑结构是蛋白质折叠算法的持续挑战,因此通过实验验证所讨论的结构预测将非常重要。不仅可以获得对AlphaFold系统正确预测复杂蛋白质拓扑结构的能力的精细衡量,而且重要的是确认这里发现的大量新蛋白质结。