APP下载

Google推出用于可方便探索武汉肺炎科学文献的工具

消息来源:baojiabao.com 作者: 发布时间:2024-06-02

报价宝综合消息Google推出用于可方便探索武汉肺炎科学文献的工具

情境示意图,Photo By: Jason W. Edwards, Army(https://www.defense.gov/Explore/Features/Story/Article/2175142/military-hospital-lends-research-expertise-to-global-pandemic-effort/)

由于武汉肺炎(COVID-19)疫情大流行,全世界科学家都动起来,大量发布相关的新研究,为了让研究人员,能够跟得上新研究的发表,易于搜寻并且取用这些新论文,Google发布了武汉肺炎研究探索工具(COVID-19 Research Explorer),这是建立在武汉肺炎开发研究资料集之上的语义搜寻界面,能够让使用者快速从5万多篇期刊文章和论文预印本,搜寻出需要的资料。

大量发表的论文代表着更多科学新发现,让研究人员可更了解武汉肺炎,但是也使得资讯量过多,研究人员难以全面掌握这些研究的内容,而搜寻工具便能够帮助研究人员,更方便地利用这些研究。但Google提到,传统的搜索引擎,虽然可以用来查询一些即时资讯,但是可能难以理解查询背后的含义,而且使用关键字的传统搜寻方法,也难以处理复杂的查询,因此无法在武汉肺炎科学文献库中,找出有用的资料。

而Google新推出的这个武汉肺炎研究探索工具,可以让研究人员快速地浏览文章,取得与武汉肺炎相关问题的答案或证据;当用户在武汉肺炎研究探索工具中输入问题时,该工具不仅会显示一系列论文,还会重点显示论文中的片段,这些片段可能就是使用者问题的答案。用户可以查看这些搜寻结果的摘要,再决定是否要进一步阅读该论文,而当使用者对于初步的结果感到满意,也可以接着提出后续问题,对初始检索的文章进行更深入的查询。

Google解释了这个工具背后的运作方法,其中一项关键技术便是语义搜寻,Google表示,语义搜寻的目的,不仅是捕捉查询和文件之间的术语重叠,还能真正理解短语的意义,比对与使用者查询意图的关联性。

Google举例,像是当使用者查询什么调控了ACE2表达?(What regulates ACE2 expression?)这个问题,许多基于文字配对的搜索引擎,可能无法良好地处理这个查询,因为Regulate这个字,也可用在许多生物过程(Biological Process)上,虽然传统资讯检索(IR)系统会使用查询扩展的方法,来减轻辞意困惑产生的影响,但语义搜寻的目的,便是要内隐地学习这些关系,因此更能妥善的处理这样的问题。

而且由于ACE2这个酶本身就参与调控某些生物过程,但是实际上问题是查询什么东西调控了ACE2,而非ACE2调控了什么,但是仅根据术语配对的搜寻方法,便分不清楚之间的差异,虽然传统资讯检索方法也会使用一些技巧解决这个问题,不过语义搜寻方法是在其核心对单词的顺序和意义建模,因此能更好地克服这个问题。

在武汉肺炎研究探索工具中,Google使用自然语言处理预训练技术BERT,来建构神经语义搜寻技术,BERT是近来被用来提高Google搜寻品质的技术。不过,Google提到,在部分的案例中,神经模型的效能,却又比关键字模型还差,因为关键字模型本质上是记忆程式,可以从查询中记住术语,并且查询包含这些术语的文件,而神经检索模型则会归纳概念和含义,在部分精确度重要的案例上,神经检索模型则可能过度概括。

因此Google最后建立了混合术语配对和神经检索的模型,术语配对和神经模型都可以转换到空间向量模型,也就是说,查询和文件都能进行编码,Google将两种向量连接再一起进行查询,控制术语配对和神经语义配对的相对重要性,来提供高精确度的生物医学文献检索。

目前武汉肺炎研究探索工具释出Alpha测试版,免费提供研究社群使用,在接下来几个月,Google还会持续调整工具的可用性。

2020-05-06 12:56:00

相关文章