APP下载

DeepMind再创新里程碑,挑战复杂蛋白质结构问题打造准确预测模型AlphaFold

消息来源:baojiabao.com 作者: 发布时间:2024-04-30

报价宝综合消息DeepMind再创新里程碑,挑战复杂蛋白质结构问题打造准确预测模型AlphaFold
图片来源: 

DeepMind

继打造出打败人类围棋世界冠军的AI程式AlphaGo之后,DeepMind最近再次出手,挑战的是复杂的蛋白质结构预测问题,成功打造出仅透过基因序列,准确预测蛋白3D结构的预测模型AlphaFold,并在今年投稿蛋白质结构预测竞赛(CASP),在入选的团队中,排名第一名,该预测蛋白结构的运算方法,更被竞赛主办方喻为史无前例的进展。

DeepMind指出,此研究成果是生物学的主要挑战的一大进展,因为预测蛋白质形状,将可以了解该蛋白质在人体内的作用,进而诊断和治疗由错误折叠蛋白质引起的疾病,像是阿兹海默症、帕金森氏症、亨丁舞蹈症、囊状纤维化疾病等。

DeepMind研究团队从两年前就开始着手蛋白质结构的研究,透过庞大基因组资料和多年的研究,来开发预测模型,该模型产生3D结构蛋白质模型,远比以往的研究准确,蛋白质3D结构的预测模型AlphaFold,锁定困扰生物科学家已久的挑战——蛋白质折叠(protein folding)问题,蛋白质折叠问题即是预测没有固定结构的氨基酸序列,会如何折叠成特定3D结构的蛋白质分子。

蛋白质是一个巨大且复杂的分子,几乎所有生物体的机能都与蛋白质的移动和改变息息相关,像是收缩肌群、光线感知,和将食物转为能量的行为,而这些蛋白质都在被编译在DNA中,称之为基因。而蛋白质有成千上万种,每一种都有其特定的功能,功能取决于蛋白质特定的3D结构,举例来说,免疫系统的抗体蛋白质为Y型,分叉顶端具有抗原结合位的锁状结构,透过特殊的结合机制,抗体蛋白能够侦测和标记外来微生物和受感染的细胞,以诱导其他免疫机制对其进行攻击。

不过,从基因序列识别蛋白质结构是一项非常复杂的任务,该任务的挑战在于基因序列中,只包含部分的氨基酸残基序列讯息,且越大的蛋白质就复杂,因为有更多的氨基酸序列的相互作用必须纳入考量,以至于难以建模,如果用列举所有可能配置的方式,要找出一个典型的蛋白质正确3D结构,可能要花上比宇宙年龄还要长的时间。

DeepMind期望透过AI技术来解决这道难题,理解蛋白质的折叠,除了有助于疾病诊断和治疗、药物开发之外,还能帮助蛋白质设计的工作,例如,生物降解酶来管理像是塑胶或是石油等污染物,以更友善的方式分解废料,同时也能降低实验成本和时间。

过去50年来,生物科学家都是透过大量的尝试错误法,来辨识蛋白质的形状,借由这种实验方法,每一个结构就要花上好几年的时间和数千美元的成本,幸运的是,多亏基因序列成本快速降低,基因领域拥有丰富的资料,因此,近几年,透过深度学习技术来预测蛋白质结构的方法,变得越来越热门,DeepMind也开始投入研究,最后打造出AlphaFold。

不同的是,DeepMind没有采用先前已建立的蛋白质当作模板,而是从头开始,并透过2个方法来建置结构的预测,这两项方法都是透过训练过的深度神经网络,从基因序列来预测蛋白质的特征,包含成对氨基酸的距离、链接氨基酸化学键的角度。

图片来源:DeepMind

首先,DeepMind研究团队训练了一套神经网络来预测每对氨基酸分别的距离分布,并将输出的概率组合,用来评估书蛋白质结构的准确度,另外,DeepMind还分开训练了另一套神经网络,利用距离分布的总和来评估与正确结构的接近程度。

透过这些评分机制,系统就能找出最符合正确结构的预测结果,第一种方法是生物学中最常用的方法,反复用新的蛋白质片段来替换蛋白质结构的片段,借此,就能训练出创造新片段的生成神经网络,来改善蛋白质结构的评分。第二种方法则是利用梯度下降法来优化评分,提升预测结构的准确度,为了减少预测的复杂性,该技术用于整个蛋白质链,而不是只用在独立折叠的片段。

DeepMind表示,该研究成果的成功,展现了机器学习系统,能够整合不同来源的资料,协助科学家快速地为复杂的问题,找到创新的解决方案,就像AlphaGo和AlphaZero能够在复杂的围棋游戏中协助人类一样,DeepMind希望AI技术的突破,有一天能够帮助人类战胜基础科学的问题。

2018-12-04 11:35:00

相关文章