重大突破!AI破解几乎所有蛋白质结构两亿个全新数据将带来什么

0 Comments

一个“蛋白质宇宙”诞生了。2021年7月刚推出之际,AlphaFold数据库拥有35万个蛋白质预测结构,如今这个数据达到了2.14亿个,库容翻了610倍。

7月28日,DeepMind公布的这个蛋白质数据库已经囊括了几乎所有地球生物物种,包括动物、植物、细菌、真菌等等,据《自然》官网报道,DeepMind的合作方、欧洲分子生物学实验室的欧洲生物信息学研究所 (EMBL-EBI)称,在超过2.14亿个预测结构中,约35%与实验确定的蛋白质结构一样高度准确,另外45%的预测结构也到达了很高的可信度,能用于后续多种研究和应用。

从建立之初,这个数据库就是免费开放的,如今已成为科学家的必备工具。据EMBL-EBI数据,迄今已有超过1000篇科学论文引用了AlphaFold数据库,来自190个国家的50多万名研究人员访问过该数据库,查看了超过200万个蛋白质结构。目前,DeepMind测定的这些蛋白质结构也被整合到其他的公共数据库中,将为数百万研究人员的日常工作提供参考。

相比于1年前,AlphaFold数据库中的蛋白质结构数据量增加了600多倍,涵盖了物种也达到了100万种(图片来源:DeepMind)

AlphaFold数据库就是蛋白质结构的“谷歌搜索”,要认识某个蛋白质结构只需在数据库搜索可立即获得结果,这可以让科学家能够集中精力加快实验研究。按照DeepMind创始人、首席执行官德米斯·哈萨比斯(Demis Hassabis)的看法,这是迄今为止人工智能系统在推进科学发展中做出的最大贡献。他在DeepMind的官方博客中称,从抗击疾病到开发疫苗,AlphaFold已经取得了令人难以置信的进展,而这只是开始。

从科研人员对该数据库的热情就可以想见其对科学研究的价值,仅DeepMind在《自然》杂志上发表的2篇论文已被引用超过4000次。可以说,AlphaFold实现了AI在生命科学领域的雄心。斯克利普斯研究所创始人埃里克·托普(Eric Topol)的看法是,AlphaFold是AI在生命科学领域取得的唯一的重大进展,以前确定一个蛋白质的三维结构需要数月或数年,现在只需要几秒钟。

托普说,AlphaFold已经加速并促成大规模的蛋白质结构被破解,包括核孔复合体的结构,“我们可以期待每天都有更多的生物之谜被揭示”。事实上,按照哈萨比斯的说法,这个数据库的价值可以覆盖从了解疾病到保护蜜蜂,从解决生物学难题到深入研究生命起源本身,对解决一些重要的问题,例如可持续发展、燃料问题、粮食不安全和被忽视的疾病等,都将产生重大的影响。

该数据库已经在疟疾的治疗中发力了。今年5月,牛津大学的生物化学教授马修·希金斯(Matthew Higgins,从事疟疾研究)领导的研究团队宣布,他们已经使用AlphaFold帮助确定了一种来自疟原虫的关键蛋白质的结构,并找出能阻止疟原虫传播的抗体可能结合的位置。

希金斯在接受《卫报》采访时称,他们之前采用蛋白质晶体学技术来计算这种分子结构,但多年来一直没有取得突破,因这种蛋白质的结构动态性强并且会到处移动,而在将AlphaFold预测的结构模型与实验数据结合后,他们顺利地解决了这一难题。他们准备将最新的研究成功用于设计优化的疫苗,以诱导感染者产生最有效的、能阻断疟疾传播的抗体。

目前借助于AlphaFold,已经发表的蛋白质结构(图片来源:DeepMind)

而环境研究,也会因为这一数据库而受益。据《卫报》,英国朴茨茅斯大学的结构生物学教授兼酶创新中心(CEI)的主任约翰·麦吉汉(John McGeehan)正在使用AlphaFold来识别自然界中的酶的结构,以期找到能消化和回收塑料的酶。他们已经发现了从未见过的三维的蛋白质结构具有分解塑料的功能。

DeepMind表示,该公司在与其他机构和组织合作时,会优先考虑最富社会效益的项目。他们与被忽略疾病药物研发组织(DNDI)合作,帮助推进利什曼原虫病(Leishmaniasis)、南美锥虫病等严重影响贫困地区的疾病的治疗,以及对世界卫生组织(WHO)列为优先研究项目中的关键蛋白质结构进行预测,包括麻风病和血吸虫病等。

DeepMind隶属于谷歌的母公司Alphabet,击败了传奇围棋选手李世石的AlphaGo亦为其旗下产品。2016年,击败李世石后不久,DeepMind成立了针对“蛋白质折叠问题”的研究团队。到2018年,DeepMind首次公开了AlphaFold的预测结果,其成果发表在《自然》上。

2020年11月30日,AlphaFold2以巨大优势在国际蛋白质结构预测竞赛(CASP)中一举夺魁,其预测的蛋白质结构已达到原子精度,可与实验测得的结构相媲美。要知道,多年来,科学家只能通过核磁共振、X射线和冷冻电镜技术来确定蛋白质的结构。他们需要为了一个蛋白质结构反复试验,其间花费了数年时间和巨额费用。2005年,《科学》杂志在创刊125周年之际将预测蛋白质结构列为125个最具挑战性的科学问题之一。因此,AlphaFold的这次胜利被视为解决了50年来生物学领域的一个重大挑战。

在中等难度的蛋白结构预测中,AlphaFold连续两年夺冠,今年更是取得了将近90分的GDT成绩。来源:DeepMind

到了2021年,DeepMind决定把AlphaFold的力量交到世界手中,于是在当年的7月15日在《自然》上开源了AlphaFold的代码以及60页的详细补充信息。

就在1周后,DeepMind在《自然》上又发表了对整个人类蛋白质组的结构预测结果,且使当时已知的高置信度蛋白质结构的数量增加了一倍。与此同时,DeepMind还联合EMBL-EBI推出了AlphaFold数据库,其中囊括了人类蛋白质组以及另外20种模式生物体内超过35万个蛋白质结构。

而又于11月,DeepMind又更新了AlphaFold2的源代码,以解读多链蛋白质复合物,这显著提高了预测蛋白质之间相互作用的准确性。2022年,AlphaFold数据库迎来了库容的数量级增长。这个“蛋白质宇宙”就拥有了独一无二的强大力量。

伦敦帝国理工学院教授基思·威尔逊(Keith Willison)称,AlphaFold在蛋白质折叠方面仍有问题需要解决。AlphaFold只能基于已知实验数据进行预测,但对于无法折叠成稳定3D结构的蛋白质就无能为力了,这些蛋白质通常具有不稳定和不可预测的折叠模式。

伊利诺伊大学厄巴纳-香槟分校计算生物学家彭健称,AlphaFold可以帮助科学家重新评估以前的研究,以更好地了解疾病是如何发生的。不过他提示说,对于具有相关信息但认识不足的罕见蛋白质,AlphaFold的预测质量也可能不那么高了。

哥伦比亚大学系统生物学家·库莱希(Mohammed AlQuraishi)在接受据《麻省理工科技评论》采访时称,许多蛋白质会受基因突变和自然等位基因的影响,但它们的结构会如何改变,这个数据库不会解决。他说,“希望能准确模拟蛋白质突变体的工具很快会出现”。

库莱希等人参与创办了非营利性人工智能研究联盟OpenFold,他们在AlphaFold数据库基础上做了进一步改造。2022年6月28日,OpenFold发布了其开发的第一个能预测蛋白质结构的AI模型,该模型是基于谷歌DeepMind和华盛顿大学蛋白质设计研究所的工作而开发的。OpenFold内部评价是,该模型比AlphaFold2平均精度更高,运行时间更快。

不过,山东大学数学与交叉科学研究中心教授杨建益(从事蛋白质结构预测)告诉《环球科学》,AlphaFold2已经很好用了,部署也很简单,对硬件要求并不高,有图形处理器(GPU)就够,很多公司和高校都在用,速度还很快。他说,“我个人并不太看好OpenFold,复现AlphaFold2的训练过程意义并不大,我自己也测试过OpenFold,它的性能并不如AlphaFold2。”

封面图为蛋白质Pfs48/45,它是疟原虫体内的一种关键蛋白质。科学家利用AlphaFold破解了其三维结构,推动了相关抗体的研发。来源:DeepMind

Leave a Reply

您的电子邮箱地址不会被公开。