AlphaFold的新对手?新AI预测微生物六亿多蛋白结构
Meta(前身为 Facebook,总部位于加利福尼亚州门洛帕克)的研究人员使用人工智能 (AI) 来预测来自细菌、病毒和其他尚未表征的微生物的约 6 亿种蛋白质的结构。负责人Alexander Rives说:“这些是我们最不了解的神秘蛋白质结构。我认为它们为深入了解生物学提供了潜力。”
该团队使用“大型语言模型”生成了预测工具——人工智能AI,这是可以从几个字母或单词预测文本的工具的基础。
通常,语言模型是在大量文本上进行训练的。为了将它们应用于蛋白质,Rives 和他的同事将它们输入已知蛋白质的序列,这些蛋白质可以由 20 种不同氨基酸组成的链表达,每一种都用一个字母表示。然后,该网络学会了“自动完成”蛋白质,其中一部分氨基酸被遮蔽。
蛋白质“自动完成”
Rives 说,“这种培训使网络对蛋白质序列有了直观的了解,这些蛋白质序列保存了有关其形状的信息。第二步,受到 DeepMind 开创性的蛋白质结构 AI AlphaFold 的启发,将这些见解与有关已知蛋白质结构和序列之间关系的信息结合起来,从蛋白质序列中生成预测结构。Meta 的网络,称为 ESMFold,不如 AlphaFold 准确,但它在预测结构方面快了大约 60 倍,这意味着我们可以将结构预测扩展到更大的数据库。”
做一个测试案例,研究人员决定将他们的模型应用于来自环境(包括土壤、海水、人类肠道、皮肤和其他微生物栖息地)的批量测序“宏基因组”DNA 数据库。其中绝大多数编码潜在蛋白质的 DNA 条目来自从未被培养过且科学未知的生物体。
Meta 团队总共预测了超过 6.17 亿种蛋白质的结构。这项工作只用了 2 周时间(AlphaFold 可能需要几分钟才能生成一个预测)。Rives 说:“任何人都可以免费使用这些预测,就像模型底层的代码一样。”
AlphaFold 和 AI 蛋白质折叠革命的下一步是什么
在这 6.17 亿个预测中,该模型认为超过三分之一是高质量的,因此研究人员可以确信整体蛋白质形状是正确的,并且在某些情况下可以辨别更精细的原子级细节。数以百万计的结构是全新的,与通过实验确定的蛋白质结构数据库或已知生物体预测的 AlphaFold 数据库中的内容不同。
首尔国立大学的计算生物学家 Martin Steinegger 说:“AlphaFold 数据库的很大一部分是由彼此几乎相同的结构组成的,而“宏基因组”数据库应该涵盖了以前看不见的蛋白质宇宙的很大一部分,即现在有一个很大的机会来解开更多的谜底。”
Sergey Ovchinnikov教授对 ESMFold 做出的数以亿计的预测感到疑惑:有些可能缺乏明确的结构,至少是孤立的,而另一些可能是非编码 DNA,被误认为是蛋白质编码材料。似乎我们对仍有一半以上的蛋白质空间一无所知。
更精简、更简单、更便宜
德国慕尼黑工业大学的计算生物学家 Burkhard Rost 对 Meta 模型的速度和准确性印象深刻。但他质疑在预测宏基因组数据库中的蛋白质时,它是否真的比 AlphaFold 的精确度更具优势。
基于语言模型的预测方法,他的团队开发了一种更适合快速确定突变如何改变蛋白质结构的方法,显然AlphaFold 无法做到这一点。
据称,DeepMind 目前没有将宏基因组结构预测纳入其数据库的计划,但并未排除未来发布的可能性。Steinegger 和他的合作者已经使用了一个 AlphaFold 版本来预测大约 3000 万个宏基因组蛋白的结构。他们希望通过寻找新形式的基因组复制酶来发现新型 RNA 病毒。他认为我们很快就会对这些宏基因组结构的分析产生爆炸式的兴趣。
参考资料:
https://doi.org/10.1038/d41586-022-03539-1