APP下载

Google开源可分析表格资料回答自然语言问题的AI技术

消息来源:baojiabao.com 作者: 发布时间:2024-05-12

报价宝综合消息Google开源可分析表格资料回答自然语言问题的AI技术

Google扩展自然语言处理技术BERT,发展出能够处理表格资料结构,回答表格内容查询的新方法TAPAS;Google强调,TAPAS能够处理的对象不仅限于单一表格类型,而是可应用到广泛领域的表格。

许多资讯以表格的形式储存,从网络上的数据库和文件里,都能找到储存丰富资讯的表格,内容可能包含产品的技术规格、国家发展统计资料或是赛事结果等资料,而目前处理这些表格,不是需要人工查询,就是要使用针对特定问题的服务来查询。

当这些表格能够应用自然语言查询,则里面的资讯就更加容易被取得,使其更具价值,Google提到,现在有一些新的研究在处理这类问题,把自然语言问题转换成SQL查询,以查询数据库的方式查询表格,但是这种方法通常需要进行大量电脑工程的工作,以产生特定语句结构和语意查询,且只能处理非常特定的表格,难以扩展处理任意的问题。

因此Google希望以自然语言处理来解决这个问题,因而发展出TAPAS。Google第一个要解决的部分,就是处理查询问题的方法,Google使用BERT开发出可将问题和表格内容逐行编码的模型,Google解释,他们以特殊的嵌入扩展BERT模型,因此让模型能够编码表格结构。

这个模型会有两个输出,其一是为每个表格单元计算一个分数,用来表达成为答案的概率,另一个则是生成聚合操作,指示产生最终答案所需要进行的动作,像是平均、加总或是计数等。为了对这个模型进行预训练,研究人员从英文维基百科中,撷取了620万个表格文字配对,以作为训练资料集,让模型学习恢复表格或是文字中,遭到移除的单词。预训练之后,研究团队利用弱监督方法微调模型,以有限的来源提供标记训练资料的讯号。

研究人员将他们的模型应用在SQA、WTQ(WikiTableQuestions)和WikiSQL三个资料集,并与这3个资料集当前的先进模型(SOTA,State-Of-The-Art),进行解析表格比较,分别是原研究团队先前运用SQA资料集的模型,还有应用WTQ的Wang et al.(2019)以及使用WikiSQL的Min et al(2019)方法。

实验结果显示,Google的新模型比SQA的SOTA的表现高了12.1分,也比WTQ来自史丹佛大学的SOTA高了4.3分,并与WikiSQL的Min et al(2019)打成平手,略输0.3分。

2020-05-04 12:53:00

相关文章