被吹捧的生物界“阿尔法狗”,准确性比随机猜测好不了多少?
本文来自微信公众号:学术头条 (ID:SciTouTiao),作者:学术头条,原文标题:《AlphaFold能不能用?MIT新研究:比随机猜测好不了多少,仍需继续改进》,头图来自:DeepMind
继 2017 年 AlphaGo 击败前世界第一围棋选手柯洁之后,2020 年 AlphaFold 2 的横空出世,让人工智能(AI)再次成功出圈。
2 年之后,如今的 AlphaFold 又怎样了?
今年 7 月,DeepMind 与 EMBL-EBI(欧洲生物信息研究所)利用 AlphaFold 几乎预测出了地球上的所有已知蛋白质,超过 100 万个物种的 2.14 亿个蛋白质结构,堪称生物学领域的一项重大飞跃,一度在国内外的社交媒体上引发热议。
但是,作为“圈内人”的生命科学领域科学家们,却对 AlphaFold 取得的成果褒贬不一。
上个月,美国药物发现化学家 Derek Lowe 就给 AlphaFold 泼了一盆冷水。在一篇题为“Why AlphaFold won’t revolutionise drug discovery”的文章中,Lowe 写道,AlphaFold 的整个计算技术都建立在寻找已知结构的类比上,在没有可比较结构的情况下,AlphaFold 就无计可施了。
(来源:Twitter)
如今,来自麻省理工学院、哈佛大学和 Broad 研究所的研究团队,在一项新研究中再次揭示了 AlphaFold ?局限性。
研究团队希望能够利用 AlphaFold(预测出的)结构找到与特定细菌蛋白结合的药物。但他们发现,AlphaFold 在这一方面表现得并不好。“事实上,它们的预测比偶然性好不了多少。”
相关研究论文以“Benchmarking AlphaFold-enabled molecular docking predictions for antibiotic discovery”为题,已发表在科学期刊 Molecular Systems Biology 上。
麻省理工学院教授、论文通讯作者 James Collins 说: “诸如 AlphaFold 这样的突破正在扩大计算机药物发现工作的可能性,但是这些发展需要与作为药物发现工作一部分的建模其他方面的进步相结合。”
准确性不足
在过去的几十年里,很少有新的抗生素被研发出来,主要原因是目前筛选潜在药物的方法过于昂贵和耗时。一个有前途的新策略是使用计算模型,从而更快、更便宜地进行新药研发。
此前,AlphaFold 已经从它们的氨基酸序列中准确地预测了蛋白质结构,这项突破让致力于寻找新抗生素的科学家感到兴奋。
据介绍,这项新研究是 Collins 实验室最近发起的抗生素-人工智能项目(Antibiotics-AI Project)的一部分,该项目的目标是利用人工智能发现和设计新的抗生素。
在此次工作中,研究团队利用 AlphaFold 生成的蛋白质结构,探索了现有模型是否能够准确预测细菌蛋白与抗菌化合物的相互作用。
如果答案是肯定的,科学家们就可以使用这种类型的模型进行新化合物的大规模筛选,而这些化合物可以靶向于之前不能靶向的蛋白质。这将使研发出具有前所未有作用机制的抗生素成为可能,是解决抗生素抗药性危机的关键任务。
为了测试这一策略的可行性,Collins 团队决定研究 296 种来自大肠杆菌(E. coli)的必需蛋白质与 218 种抗菌化合物的相互作用,其中包括四环素(Tetracyclines)等抗生素。
他们使用分子对接模拟分析了这些化合物如何与大肠杆菌的蛋白质相互作用,根据它们的形状和物理性质,来预测两个分子结合在一起的强度。
这种模拟已经成功地应用于针对单个蛋白质靶标筛选大量化合物的研究中,来确定可以实现最佳结合的化合物。但是,当他们试图针对许多潜在目标筛选多种化合物时,预测的准确性要低得多。
通过将模型产生的预测与实验室实验中获得的 12 种必需蛋白质的实际相互作用进行比较,研究团队发现,模型的假阳性率与真阳性率相似。这就表明,该模型无法一致地识别现有药物与其靶标之间的真正相互作用。
图 | 细胞中复杂的蛋白质网络(来源:Cellsignal)
此外,研究团队借助常用于评估计算模型的测量方法 auROC 发现,模型表现出的性能也比较差。
对此,Collins 表示:“我们利用这些标准的分子对接模拟,得到了一个大约为 0.5 的 auROC 值,这一数字表明,模型的表现并不比随机猜测的表现更好。” 当研究团队对实验确定的蛋白质结构使用这种建模方法时,他们发现了类似的结果。
Collins 说:“AlphaFold 预测的结构似乎与实验确定的结构大致相同,但如果我们要在药物发现中有效和广泛地使用 AlphaFold,我们需要在分子对接模型方面做得更好。”
更好的预测
对于以上结论,研究团队表示,AlphaFold 模型性能差的一个可能原因是,输入模型的蛋白质结构是静态的,然而在生物系统中,蛋白质是动态的,它们的构型经常会发生变化。
为了提高建模方法的成功率,研究团队使用其他 4 个机器学习模型进行了预测。这些模型是根据描述蛋白质和其他分子如何相互作用的数据进行训练的,能够在预测中加入更多信息。
“机器学习模型不仅学习已知相互作用的形状,还学习已知相互作用的化学和物理特性,然后利用这些信息重新评估对接预测,” 论文共同一作 Felix Wong 说,“数据显示,这些额外的模型可以帮助我们得到更高的真阳性和假阳性的比率。”
然而,研究团队表示,在这种类型的模型被用来成功识别新药之前,还需要进一步的改进,一个可能的方法是在模型训练中加入更多的数据,包括蛋白质的生物物理和生化特性及其不同构象,以及这些特征如何影响它们与潜在药物化合物的结合。
Collins 认为,随着进一步的进展,科学家或许不仅可以利用人工智能产生的蛋白质结构发现新的抗生素,而且还能发现治疗包括癌症在内的各种疾病的药物。
“我们乐观地认为,随着建模方法的改进和计算能力的增强,这些技术将在药物发现中变得越来越重要。然而,我们还有很长的路要走。”
参考链接:
https://www.embopress.org/doi/full/10.15252/msb.202211081
https://news.mit.edu/2022/alphafold-potential-protein-drug-0906
https://www.chemistryworld.com/opinion/why-alphafold-wont-revolutionise-drug-discovery/4016051.article
本文来自微信公众号:学术头条 (ID:SciTouTiao),作者:学术头条