Google开源可分析表格资料回答自然语言问题的AI技术最新消息

Google开源可分析表格资料回答自然语言问题的AI技术

消息来源:baojiabao.com 作者: 发布时间：2024-05-12

报价宝综合消息Google开源可分析表格资料回答自然语言问题的AI技术

Google扩展自然语言处理技术BERT，发展出能够处理表格资料结构，回答表格内容查询的新方法TAPAS；Google强调，TAPAS能够处理的对象不仅限于单一表格类型，而是可应用到广泛领域的表格。

许多资讯以表格的形式储存，从网络上的数据库和文件里，都能找到储存丰富资讯的表格，内容可能包含产品的技术规格、国家发展统计资料或是赛事结果等资料，而目前处理这些表格，不是需要人工查询，就是要使用针对特定问题的服务来查询。

当这些表格能够应用自然语言查询，则里面的资讯就更加容易被取得，使其更具价值，Google提到，现在有一些新的研究在处理这类问题，把自然语言问题转换成SQL查询，以查询数据库的方式查询表格，但是这种方法通常需要进行大量电脑工程的工作，以产生特定语句结构和语意查询，且只能处理非常特定的表格，难以扩展处理任意的问题。

因此Google希望以自然语言处理来解决这个问题，因而发展出TAPAS。Google第一个要解决的部分，就是处理查询问题的方法，Google使用BERT开发出可将问题和表格内容逐行编码的模型，Google解释，他们以特殊的嵌入扩展BERT模型，因此让模型能够编码表格结构。

这个模型会有两个输出，其一是为每个表格单元计算一个分数，用来表达成为答案的概率，另一个则是生成聚合操作，指示产生最终答案所需要进行的动作，像是平均、加总或是计数等。为了对这个模型进行预训练，研究人员从英文维基百科中，撷取了620万个表格文字配对，以作为训练资料集，让模型学习恢复表格或是文字中，遭到移除的单词。预训练之后，研究团队利用弱监督方法微调模型，以有限的来源提供标记训练资料的讯号。

研究人员将他们的模型应用在SQA、WTQ（WikiTableQuestions）和WikiSQL三个资料集，并与这3个资料集当前的先进模型（SOTA，State-Of-The-Art），进行解析表格比较，分别是原研究团队先前运用SQA资料集的模型，还有应用WTQ的Wang et al.（2019）以及使用WikiSQL的Min et al（2019）方法。

实验结果显示，Google的新模型比SQA的SOTA的表现高了12.1分，也比WTQ来自史丹佛大学的SOTA高了4.3分，并与WikiSQL的Min et al（2019）打成平手，略输0.3分。

2020-05-04 12:53:00