APP下载

Google发布与人类摘要能力相当的抽象文本摘要模型PEGASUS

消息来源:baojiabao.com 作者: 发布时间:2024-05-17

报价宝综合消息Google发布与人类摘要能力相当的抽象文本摘要模型PEGASUS

Google透过将文本挖空,训练模型生成挖空间隙的字句,藉以改善抽象摘要模型的效能,这个名为PEGASUS的新模型,是Google以网络爬抓的资料预训练后,再以12个摘要资料集进行微调,只要使用少量的监督范例资料进行训练,就能达到和人类摘要能力相似的效能。Google现在将训练程式码以及模型,开源在GitHub上。

研究人员提到,抽象文本摘要是自然语言处理任务中,非常困难的工作,因为这要求模型要能够理解长篇文章,并且还要进行资讯压缩以及语言生成。目前要训练机器模型做到这一点,主要是用seq2seq学习方法,让神经网络学习把输入序列映射到输出序列;seq2seq使用递回神经网络技术,但因为Transformer编码和解码器,在处理长序列中的相依关系表现更好,因此逐渐变得热门。

Transformer模型和自我监督式预训练技术相结合,研究人员认为,这是一个非常有效解决各种语言任务的框架。而在之前的研究中,预训练的自我监督目标是较为通用性目的,而现在Google想要让自我监督目标,可以更紧密地反映最终任务,以达到更好的效能。

Google假设预训练自我监督的目标,越接近最终的任务则效能就越好,因此在PEGASUS预训练中,研究人员将文件里的几个完整句子删除,而模型的工作便是要恢复这些句子,也就是说,用来预训练的范例输入,是有缺少句子的文件,而输出则是缺失句子的串连。

Google提到,这是一个非常困难的工作,对人类来说也一样,不过,这项任务可以促使模型学习语言和一般事实,还有为了要生成摘要,而学习从文件中提取资讯的能力,这种自我监督方法的优点在于,研究人员可以创建不需要人工注解的大量范例。

而文件中移除的句子,则是越重要的句子越好,自我监督的范例的输出,最好就相当于摘要,Google利用了一种称为ROUGE的度量标准,自动找出这些重要的句子。一开始Google会先以网络爬抓的大量文件预训练PEGASUS,接着才以12个公共抽象摘要资料集微调PEGASUS,这些资料集分别有新闻、科学论文、专利、短篇小说、电子邮件和法律文件等各种主题。

事实上,经过大型资料集预训练的PEGASUS模型,效能已经相当良好,仅需要非常少量的范例进行微调即可。Google以类似图灵测试的方法,让评分人员从PEGASUS模型与人工产生的摘要二选一,而评分人员并非总是选择人工产生的摘要,而且PEGASUS模型只要以1,000个范例进行微调训练,效能表现就能与人类相去不远。

研究人员提到,这样的成果代表摘要模型不再需要大量监督范例资料集,因此可以大幅降低训练成本。

2020-06-12 10:48:00

相关文章