报价宝 > 科技 >

前沿|通用句子语义编码器谷歌在语义文本相似性上的探索

消息来源:baojiabao.com 作者: 发布时间：2024-05-06

报价宝综合消息前沿|通用句子语义编码器谷歌在语义文本相似性上的探索

选自Google AI Blog

作者：Yinfei Yang

机器之心编译

参与：

Pedro、蒋思源

近年来，基于神经网络的自然语言理解研究取得了快速发展（尤其是学习语义文本表示），这些深度方法给人们带来了全新的应用，且还可以帮助提高各种小数据集自然语言任务的性能。本文讨论了两篇关于谷歌语义表示最新进展的论文，以及两种可在 TensorFlow Hub 上下载的新模型。

语义文本相似度

在“Learning Semantic Textual Similarity from Conversations”这篇论文中，我们引入一种新的方式来学习语义文本相似的句子表示。直观的说，如果句子的回答分布相似，则它们在语义上是相似的。例如，“你多大了？”以及“你的年龄是多少？”都是关于年龄的问题，可以通过类似的回答，例如“我 20 岁”来回答。相比之下，虽然“你好吗？”和“你多大了？”包含的单词几乎相同，但它们的含义却大相径庭，所以对应的回答也相去甚远。

论文地址：https://arxiv.org/abs/1804.07754

如果句子可以通过相同的答案来回答，那么句子在语义上是相似的。否则，它们在语义上是不同的。

这项工作中，我们希望通过给回答分类的方式学习语义相似性：给定一个对话输入，我们希望从一批随机选择的回复中分类得到正确的答案。但是，任务的最终目标是学习一个可以返回表示各种自然语言关系（包括相似性和相关性）的编码模型。我们提出了另一预测任务（此处是指 SNLI 蕴含数据集），并通过共享的编码层同时推进两项任务。利用这种方式，我们在 STSBenchmark 和 CQA task B 等相似度度量标准上取得了更好的表现，究其原因，是简单等价关系与逻辑蕴含之间存在巨大不同，后者为学习复杂语义表示提供了更多可供使用的信息。

对于给定的输入，分类可以认为是一种对所有可能候选答案的排序问题。

通用句子编码器

“Universal Sentence Encoder”这篇论文介绍了一种模型，它通过增加更多任务来扩展上述的多任务训练，并与一个类似 skip-thought 的模型联合训练，从而在给定文本片段下预测句子上下文。然而，我们不使用原 skip-thought 模型中的编码器 - 解码器架构，而是使用一种只有编码器的模型，并通过共享编码器来推进预测任务。利用这种方式，模型训练时间大大减少，同时还能保证各类迁移学习任务（包括情感和语义相似度分类）的性能。这种模型的目的是为尽可能多的应用（释义检测、相关性、聚类和自定义文本分类）提供一种通用的编码器。

论文地址：https://arxiv.org/abs/1803.11175

成对语义相似性比较，结果为 TensorFlow Hub 通用句子编码器模型的输出。

正如文中所说，通用句子编码器模型的一个变体使用了深度平均网络（DAN）编码器，而另一个变体使用了更加复杂的自注意力网络架构 Transformer。

“Universal Sentence Encoder”一文中提到的多任务训练。各类任务及结构通过共享的编码层/参数（灰色框）进行连接。

随着其体系结构的复杂化，Transformer 模型在各种情感和相似度分类任务上的表现都优于简单的 DAN 模型，且在处理短句子时只稍慢一些。然而，随着句子长度的增加，使用 Transformer 的计算时间明显增加，但是 DAN 模型的计算耗时却几乎保持不变。

新模型

除了上述的通用句子编码器模型之外，我们还在 TensorFlow Hub 上共享了两个新模型：大型通用句型编码器通和精简版通用句型编码器。