能够准确建模并预测蛋白质折叠如何对我们创建从新疫苗到新材料的所有速度具有革命性的影响。

商业作者 / 姓名 / 2025-06-29 05:46
"
能够准确建模并预测蛋白质折叠如何对我们创建从新疫苗到新材料的所有速度具有革命性的影响。  喜欢指数的未来?加入我们的Xpot

能够准确建模并预测蛋白质折叠如何对我们创建从新疫苗到新材料的所有速度具有革命性的影响。

  喜欢指数的未来?加入我们的Xpotential社区,通过Xpotential University的课程,Connect,观看Keynote或浏览我的博客的未来证明自己。

  Google’s DeepMind outfit, who are one of the world’s most respected Artificial Intelligence (AI) companies, that have bought you AI’s that learn by themselves, create their own videos, and that have an imagination, as well as AI’s that can thrash some of the world’s top gamers and make other experts elsewhere retire in defeat, has now accomplished another world first as, according to Demis Hassabis, DeepMind’s public face and co-founder, the company moves又近一步,即建立了解周围世界的AI。

  本周早些时候,DeepMind和对蛋白质结构预测(CASP)竞争的长期批判性评估的组织者宣布了一个AI,该AI应该具有Hassabis所产生的巨大影响。DeepMind的Alphafold的最新版本是一种可以准确预测蛋白质在原子宽度内的结构的深度学习系统,它破坏了Biology的一个巨大挑战之一。

  马里兰州大学的约翰·穆尔特(John Moult)说:“这是AI首次解决一个严重的问题。”

  蛋白质是由氨基酸的丝带制成的,该氨基酸与许多复杂的曲折和缠结都折叠起来。该结构决定了它的作用。弄清楚蛋白质的作用是理解生命的基本机制,何时无法使用的关键。例如,为Covid-19开发疫苗的努力集中在病毒的峰值蛋白上,并且能够快速理解和建模它只是通常只花了十年时间开发的疫苗就花了十个月的原因之一。冠状病毒在人类细胞上抓取的方式取决于该蛋白质的形状以及这些细胞外部蛋白质的形状。在所有生物中,尖峰只是数十亿美元的蛋白质。仅在人体内部,就有成千上万种不同类型的蛋白质。

  在今年的CASP中,Alphafold预测了数十个蛋白质的结构,而误差仅为1.6埃词,即0.16纳米或原子尺寸。这远远超过了所有其他计算方法,并且首次与实验室中使用的技术的准确性相匹配,例如冷冻电子显微镜,核磁共振和X射线晶体学。这些技术昂贵且缓慢:每种蛋白质可能需要数十万美元的反复试验和错误。几天后,Alphafold可以找到蛋白质的形状。

  蛋白质深膜的AI合成了。蛋白质形状决定其功能。

  这一突破可以帮助研究人员设计新药并了解疾病。从长远来看,预测蛋白质结构还将有助于设计新的革命性合成蛋白,例如消化废物或产生生物燃料的酶。研究人员还在探索引入合成蛋白的方法,以增加农作物的产量并使植物更有营养。

  哥伦比亚大学系统生物学家穆罕默德·阿尔库拉希(Mohammed Alquraishi)说:“这是一个非常重大的进步。”“这是我根本没想到会迅速发生的事情。在某种程度上,这令人震惊。”

  “这确实是一件大事,”华盛顿大学蛋白质设计研究所负责人,蛋白质分析工具家庭背后的团队负责人戴维·贝克(David Baker)说。“这是一个了不起的成就,就像他们对Go所做的一样。”

  识别蛋白质的结构非常困难。对于大多数蛋白质,研究人员在色带中具有氨基酸的序列,而不是它们折叠成的扭曲形状。每个序列通常都有天文数的可能形状。至少自1970年代以来,研究人员就一直在为这个问题作斗争,当时克里斯蒂安·阿芬森(Christian Anfinsen)赢得了诺贝尔奖,以表明该序列确定了结构。

  CASP于1994年推出,使该领域有所提高。每两年,组织者每两年发布100个左右的氨基酸序列,用于在实验室中鉴定出形状但尚未公开的蛋白质。然后,来自世界各地的数十支团队竞争,以找到正确的方法来使用软件折叠它们。医学研究人员已经使用了许多用于CASP的工具。但是进步很慢,二十年的增量进步未能产生艰苦的实验室工作的捷径。

  当DeepMind在2018年以Alphafold的第一个版本参加比赛时,CASP引起了人们的震动。它仍然无法匹配实验室的准确性,但在灰尘中留下了其他计算技术。研究人员注意到:很快,许多人正在调整自己的系统以更像Alphafold的工作。

  穆尔特说,今年有一半以上的条目使用了某种形式的深度学习。结果,准确性总体上更高。他说,贝克的新系统称为Trrosetta,使用了DeepMind的一些想法。但这仍然是“非常遥远的第二个”。

  在CASP中,使用所谓的全球距离测试(GDT)对结果进行评分,该测试的量表从0到100进行测量,预测结构与实验室实验中鉴定出的蛋白质的实际形状有多近。在挑战中,最新版本的Alphafold为所有蛋白质得分良好。但是,在其中三分之二的三分之二中,GDT得分超过90。John Jumper说,它最硬的蛋白质的GDT比下一个最佳球队高25分。在2018年,领先优势约为6分。

  90以上的分数意味着预测结构与实际结构之间的任何差异都可能取决于实验室中的实验错误,而不是软件中的故障。这也可能意味着预测的结构是在自然变化范围内在实验室中识别出的一种有效的替代配置。

  根据Jumper的说法,在竞争中有四种蛋白质在实验室中没有完成独立法官的工作,而Alphafold的预测将它们指向了正确的结构。

  Alquraishi认为,从Alphafold的2018年成绩获得今年的成绩将需要10年的研究人员才能获得10年。他说,这接近物理上限的准确性。“这些结构从根本上是宽松的。谈论低于此的决议是没有意义的。”

  Alphafold建立在世界各地数百名研究人员的工作基础上。DeepMind还吸引了广泛的专业知识,将一组生物学家,物理学家和计算机科学家组成。本周在CASP会议上发布了有关其工作原理的详细信息,并在明年的《蛋白质杂志》特刊中的同行评审文章中发布。但是我们确实知道它使用了一种注意力网络,这是一种深入学习技术,可以通过专注于更大问题的一部分来训练。跳线比较了组装拼图的方法:它首先将本地块拼凑在一起,然后再将其整体安装。

  从蛋白质数据库中获取的大约170,000个蛋白质的深度训练的αFold,这是一个序列和结构的公共存储库。它比较了数据库中的多个序列,并寻找了一对氨基酸,这些氨基酸通常在折叠结构中结合在一起。然后,它使用这些数据来猜测尚不清楚的结构中的氨基酸对之间的距离。它还能够评估这些猜测的准确性。训练使用了相当于100至200 GPU的计算能力,需要“几周”。

  英国剑桥的欧洲生物信息学研究所的珍妮特·桑顿(Dame Janet Thornton)已经从事蛋白质工作了50年。

  她在上周的一次新闻发布会上说:“这实际上就是这个问题已经存在。”“我开始认为这不会在我的一生中得到解决。”

  许多药物是通过模拟其3D分子结构并寻找将这些分子插入靶蛋白的方法设计的。当然,只有在已知这些蛋白质的结构时才可以完成。桑顿说,大约有20,000种人类蛋白质中只有四分之一是这种情况。这留下了15,000个未开发的药物靶标。“ Alphafold将开辟一个新的研究领域。”

  DeepMind说,它计划研究利什曼病,睡眠病和疟疾,这是由寄生虫引起的所有热带疾病,因为它们与许多未知的蛋白质结构有关。

  Alphafold的一个缺点是与竞争对手技术相比,它的速度很慢。Alquraishi的系统使用一种称为复发的几何网络(RGN)的算法,可以更快地发现蛋白质结构一百万倍 - 以秒而不是几天的方式返回结果。他说,它的预测不太准确,但是对于某些应用而言,速度更重要。

  研究人员现在正在等待准确了解Alphafold的工作原理。贝克说:“一旦他们描述了他们如何做到这一点,那么一千朵花就会绽放。”“人们将把它用于各种不同的事物,即我们现在无法想象的事情。”

  Alquraishi说:“即使是从事酶或细菌的人来说,即使是一个不太准确的结果也是个好消息:“但是我们有更好的东西,与药品应用有关。”

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读