APP下载

Nvidia和哈佛合作以AI工具加速基因研究

消息来源:baojiabao.com 作者: 发布时间:2026-05-20

报价宝综合消息Nvidia和哈佛合作以AI工具加速基因研究

Nvidia和哈佛开发了一个深度学习工具AtacWorks,可以协助科学家进行DNA研究,即便样本资料存在噪声或是有所限制,在像是早期发现的癌症或是其他基因疾病研究上,都能发挥良好的作用,AtacWorks可以对定序资料进行降噪,或是辨识可存取的DNA区域,且使用Nvidia Tensor Core GPU还可缩短计算时间,将原本需要15小时才能完成的基因组预测,缩短到30分钟以内。

人体中多数的细胞,都拥有完整的DNA,细胞核中有数十亿个碱基对,不过,每个细胞只能取用能够发挥作用的部分,像是肝脏、血液或是皮肤细胞,不同种类的细胞,所活化的基因不同,只有决定细胞独特功能的DNA区域会对外开放,其他区域则会被蛋白质包住,而AtacWorks则能够让科学家,快速地找出DNA开放区域进行研究。

AtacWorks可以与ATAC-seq搭配使用,ATAC-seq是一种在健康和生病的细胞中,寻找基因组开放区域的热门方法,可用于探索药物研究。不过,ATAC-seq方法有一个缺点,通常必须要使用上万个细胞,才能取得干净的讯号,而这也就代表,ATAC-seq很难被用于研究,像是产生血球和血小板的干细胞等稀有类型的细胞。

ATAC-seq方法在2013年的时候被开发出来,该方法像是一种DNA着色法,能够对DNA开放区域上色,但是会跳过被包在蛋白质中的DNA区域,这个方法被基因组研究实验室以及制药公司大量采用,以检测整个基因组中每个区域的讯号强度,了解DNA活跃的部分。当可用的细胞越少,资料出现的噪声就越多,也就越难判断可存取的DNA区域。

而AtacWorks是一个以PyTorch开发的卷积神经网络,其使用ATAC-seq资料集进行训练,该模型学会了准确预测讯号的方法,研究人员发现,使用AtacWorks可以在100万次读取的噪声序列中,辨识出可存取的染色质(Chromatin),相当于传统方法需要5,000万次读取的干净资料集,如此科学家可以使用较少量的细胞进行研究,大幅降低样品收集和定序成本。

透过将AtacWorks应用于ATAC-seq资料,现在只需要几十个细胞,就可以获得过去要数千数万细胞,才能达到的实验结果品质,因此可让科学家更了解有关稀有类型的细胞,其活跃的DNA序列,并辨识出让人们容易感染疾病的突变。论文共同作者哈佛大学助理教授Jason Buenrostro提到,使用AtacWorks,让研究人员可以只用原本十分之一数量的细胞,进行单细胞实验(Single-Cell Experiment),且GPU加速深度学习对低品质定序覆盖进行降噪,可明显提高稀有细胞发育和疾病相关的表观遗传学研究速度。

研究人员使用Tensor Core GPU进行AtacWorks分析计算,该模型花不到30分钟,就预测出整个基因组,在具有32颗CPU的系统上,整个过程需要花费15个小时。论文的第一作者同时也是Nvidia研究人员的Avantika LalAtacWorks提到,AtacWorks不仅可以帮助降低收集染色质可存取资料的成本,对于药物探索和诊断,也提供了新的可能性。

2021-03-10 11:47:00

相关文章