APP下载

把化学合成逆向工程转成NLU课题,IBM用AI加速找出新药制程的关键

消息来源:baojiabao.com 作者: 发布时间:2024-05-10

报价宝综合消息把化学合成逆向工程转成NLU课题,IBM用AI加速找出新药制程的关键

IBM发布一项新服务,让化学家能运用AI进行逆合成分析(retrosynthesis),再透过云端软件自动将合成方法编写成机器指令,远端操控实验室的机器来自动化合成新分子。

图片来源: 

图/IBM提供

IBM首次揭露一项结合AI、云端及自动化技术的创新服务RoboRXN,主要用于化学实验场域,来找出一种新兴化学分子(molecule)的潜在制程。IBM苏黎世研究院经理暨杰出研究员Teodoro Laino表示,这项技术已经实际用于COVID-19的新药制程研究中,用来缩短新药从研发到上市的时间,IBM也现场展示了新分子3-Bromobenzylamine的自动化合成过程,这是IBM今年4月找出的3,000种潜在治疗药物小分子之一,预计在年底揭露更多研究成果。

过去要发现一项新材料并成功上市,需要数年到数十年的时间,比如在研发尼龙(Nylon)这项材料时,花费了10年才正式投入市场,而研发维生素B12(vitamin B12)更是花了12年,所需的人力多达上百名,投入的成本更估计高达1,000万美元。为了解决研发时间过长的问题,Teodoro Laino表示,IBM研发了RoboRXN技术,若结合超级电脑或量子电脑的运算力,就可能将新药、新材料从研发到上市的时间缩短到1年,投入成本降至100万美元,对于具有急迫性的新药研究,能带来更大的效益。

IBM提供了一个新药化学合成全自动的云端服务,化学家只要先上云提供设计好或过去找出来的新型分子结构,这个平台可以自动用AI模型,找出该分子结构最可能由那些常见的化学分子组成、及其合成步骤,也就是运用AI进行逆合成分析(retrosynthesis)的作法,再进一步,自动将合成方法转换成控制指令,送给可远端操控实验室的机器,自动合成出这个新型分子,等于从分子结构分析、生产制程预测到最后真的生产出实际的化学成品,这套云端服务可以全程自动化完成。

RoboRXN服务的云端软件界面。

这项技术的应用场景,在于当化学家提出了一种新颖的分子结构后,可以透过RoboRXN提供的逆合成分析技术,再不需人工干预的条件下,在几秒钟到几分钟之间,分析出该分子可以由哪些市售材料合成,甚至远端操控机器来自动化合成。IBM苏黎世研究院认知健康照护与生命科学领域的研究员Matteo Manica表示,这项技术并非用于找到新分子或新药的结构,而是用来加速新分子制程研究。

靠AI预测新分子制程,就像分析苹果派的原料与烹饪过程

IBM发表RoboRXN时,也进一步解释了以AI进行逆合成分析的技术概念。

IBM苏黎世研究院博士前研究员Philippe Schwaller指出,市面上有一些逆合成分析工具,仰赖专家手动订定分析规则,这种基于规则来进行逆合成分析的方法,会随着文献资料量倍增,而逐渐不够全面,因为专家的知识经验也有限。换句话说,在软件中手动添加规则的方式,反而局限了逆合成分析的结果。

IBM苏黎世研究院提出的论文指出,为了解决这个问题,许多专家近年来也提出了多种新分析方法,大致可归纳为基于图形(Graph-based)或基于序列(Sequence-based)两大类,而IBM正是采用了基于序列的方法,将化学反应的分子结构转换为简化分子线性输入规范(SMILES)的表现形式,也就是将分子化合物及其合成分子,分别以文字序列来表示,如此一来,就能把“分子化合物由哪些分子合成?”的预测问题,视为自然语言(NL)问题,因为“分子化合物”对应到“哪些合成分子”的问题,就类似于“英文句子”对应到“哪句中文翻译”的问题。

应用了这个概念,IBM设计了一组深度学习Seq2seq模型,借此来预测出新分子所需的分子组合,就像是预测一个苹果派用到的食材原料有哪些,比如切片苹果、面团、糖、蛋液、牛奶、肉桂等,而面团又需要用奶油、面粉来制作。

第一个AI模型,会预测新分子可能的组成成分。

接着,IBM也开发了第二个AI模型,基于第一个AI模型的分析结果(苹果派原料),进一步找出其烹饪步骤,比如应加入哪些特定分量的食材、混合并搅拌均匀,再放入烤箱烘烤,控制烘烤温度与时间,最后取出苹果派完成制作。对应到分子的制程,则是透过AI模型,来预测新分子的合成步骤。

第二个AI模型,主要用于分析新分子的合成步骤。

而IBM应用于第二个AI模型的技术,更被刊登在科学期刊Nature Communications中,其中提到,第二个AI模型背后,IBM其实还预训练了一个的NLP模型,以人工标注的方式来进行训练与调教。这个NLP模型,能用来分析各论文、专利等非结构化的文本内容,从中自动萃取出中简化的化学反应步骤,再以此来训练第二个AI模型,使其拥有预测分子合成步骤的能力。

IBM苏黎世研究院研究员Alain Vaucher指出,NLP模型的最大作用,就是将数百万个文本内容,转换为第二种AI模型容易学习的资料格式,再由第二个AI模型预测出一系列化学反应步骤,来指示机器或化学家执行。

第三个AI模型,也就是隐藏在第二个AI模型后的NLP模型,主要将文本资料内容转换为标准化的资料格式,提供第二个AI模型使用。

Teodoro Laino也补充说明,AI模型的正确率取决于资料集的使用,比如IBM运用公开、可取得的通用化学反应资料集,所训练的模型准确率可达90%,整个AI系统的训练资料量更超过200万笔。但这套AI模型也无法预测出所有分子的合成方法,遇到瓶颈时,使用者可以重新训练AI,让AI学习新的化学反应与合成方法,来提高模型表现。

自动将合成步骤转译为机器语言,云端抛送指令给机器执行

经过AI预测出新分子的制程后,下一步,则是要将AI预测结果转化为机器指令,来自动化合成新分子。为此,IBM也设计了一个硬件翻译器,把人工可读的合成步骤,自动转换为机器可读的格式,以此命令机器执行合成任务。

不过,目前自动化合成技术仍有局限,Teodoro Laino表示,从执行面来看,现有的合成技术局限于不超过4~5个步骤的合成任务,过多步骤或涉及提纯(purification)技术的步骤,目前仍无法支援。比如IBM发表会现场实际以3-Bromobenzylamine为例,来展示其自动化合成的过程,涉及的步骤仅有7项,以添加、混合、搅拌、冷却、萃取及温度控制等步骤为主。如下所示:

IBM发表会现场实际以3-Bromobenzylamine为例,来展示其自动化合成的过程,过程中仅花费1小时即合成完成。

位于IBM研究院中的自动化机器设备。

为了让遍布全球的化学家都能使用这项服务,IBM也将整套RoboRXN技术设计为云端服务,让分散各地的化学家,能在IBM化学平台(IBM RXN for Chemistry)中共同协作,这项服务也尤其能在疫情期派上用场,让研究员能不受在家工作的限制,持续透过云端工具进行研究。

Teodoro Laino也提到,这套技术也能部署在用户的私有云中,可以让有资安疑虑的研究单位在地部署。

2020-09-02 14:47:00

相关文章