Google发布与人类摘要能力相当的抽象文本摘要模型PEGASUS最新消息

Google发布与人类摘要能力相当的抽象文本摘要模型PEGASUS

消息来源:baojiabao.com 作者: 发布时间：2024-05-17

报价宝综合消息Google发布与人类摘要能力相当的抽象文本摘要模型PEGASUS

Google透过将文本挖空，训练模型生成挖空间隙的字句，藉以改善抽象摘要模型的效能，这个名为PEGASUS的新模型，是Google以网络爬抓的资料预训练后，再以12个摘要资料集进行微调，只要使用少量的监督范例资料进行训练，就能达到和人类摘要能力相似的效能。Google现在将训练程式码以及模型，开源在GitHub上。

研究人员提到，抽象文本摘要是自然语言处理任务中，非常困难的工作，因为这要求模型要能够理解长篇文章，并且还要进行资讯压缩以及语言生成。目前要训练机器模型做到这一点，主要是用seq2seq学习方法，让神经网络学习把输入序列映射到输出序列；seq2seq使用递回神经网络技术，但因为Transformer编码和解码器，在处理长序列中的相依关系表现更好，因此逐渐变得热门。

Transformer模型和自我监督式预训练技术相结合，研究人员认为，这是一个非常有效解决各种语言任务的框架。而在之前的研究中，预训练的自我监督目标是较为通用性目的，而现在Google想要让自我监督目标，可以更紧密地反映最终任务，以达到更好的效能。

Google假设预训练自我监督的目标，越接近最终的任务则效能就越好，因此在PEGASUS预训练中，研究人员将文件里的几个完整句子删除，而模型的工作便是要恢复这些句子，也就是说，用来预训练的范例输入，是有缺少句子的文件，而输出则是缺失句子的串连。

Google提到，这是一个非常困难的工作，对人类来说也一样，不过，这项任务可以促使模型学习语言和一般事实，还有为了要生成摘要，而学习从文件中提取资讯的能力，这种自我监督方法的优点在于，研究人员可以创建不需要人工注解的大量范例。

而文件中移除的句子，则是越重要的句子越好，自我监督的范例的输出，最好就相当于摘要，Google利用了一种称为ROUGE的度量标准，自动找出这些重要的句子。一开始Google会先以网络爬抓的大量文件预训练PEGASUS，接着才以12个公共抽象摘要资料集微调PEGASUS，这些资料集分别有新闻、科学论文、专利、短篇小说、电子邮件和法律文件等各种主题。

事实上，经过大型资料集预训练的PEGASUS模型，效能已经相当良好，仅需要非常少量的范例进行微调即可。Google以类似图灵测试的方法，让评分人员从PEGASUS模型与人工产生的摘要二选一，而评分人员并非总是选择人工产生的摘要，而且PEGASUS模型只要以1,000个范例进行微调训练，效能表现就能与人类相去不远。

研究人员提到，这样的成果代表摘要模型不再需要大量监督范例资料集，因此可以大幅降低训练成本。

2020-06-12 10:48:00