APP下载

微软揭露目前规模最大的语言拼写校正系统Speller100

消息来源:baojiabao.com 作者: 发布时间:2024-05-17

报价宝综合消息微软揭露目前规模最大的语言拼写校正系统Speller100

微软开发了一个称为Speller100的系统,官方提到,这是有史以来覆盖最多种语言,并且准确性最高的拼写校正系统,Speller100能够校正100多种语言的拼写,进而改善Bing用户的搜寻结果。

微软搜索引擎Bing服务全球用户,接受100多种语言的查询,而在用户提交的查询中,约有15%的存在拼写错误,而使用带有拼写错误的资料查询,便会得到错误的答案,降低查询结果的品质,因此拼写校正是Bing搜寻堆叠中排序很前面的元件,因为能够有效改善所有下游搜寻元件的结果。

在很长一段时间,微软都只提供大约20种语言的拼写校正,而其他语言的使用者,则必须手动修正错误查询,或是接受较差的搜寻结果,而微软为了要提升Bing的搜寻品质,将当前的拼写校正服务扩展至100多种语言,并且要为这些语言,提供与原本20种语言相同的校正品质。但微软很快就发现这是一个极困难的目标,因为模型需要有大量的资料来训练每一种语言的模型,更别说要收集100种语言的资料,势必付出难以计数的时间和金钱。

微软克服了这个困难,推出了高精确度和高召回率的大规模多语言拼写校正模型,这些模型被统称为Speller100,微软主要使用了零样本学习(Zero-Shot Learning)以及大规模预训练技术,来达成这样的目标。

传统拼写校正解决方案,都是使用网络上的资料,来强化语言模型,但这种方法仅对存在大量资料的语言有效,对于网络只有少数资料,用户回馈也少的语言,要收集足够的训练资料,是一个大挑战,因此微软认为,这些语言模型不能只仰赖训练资料,来学习某种语言的拼写。Speller100的基础是使用语言家族的概念,以多种语言共享的相似性,来组成更大一组的语言。

而零样本则是另一个概念,可以让语言模型更准确地学习和校正拼写,不需要特定语言的标注训练资料,微软解释,这就像是人们自动学习了德语、荷兰语、南非荷兰语、苏格兰语和卢森堡语的拼写,这是Speller100中的关键元件,可以将拼写校正扩展到非常少,甚至是没有资料的语言。

虽然目前BERT、UniLM和DeBERTa等大型Transformer网络在自然语言处理上,已经有很大的进步,能够用于下一句预测和翻译等工作,但微软提到,拼写是完全不同的语言任务。广义上来说,拼写存在2种错误,一种是单词不存在于特定语言词汇表中,称为非字词错误(Non-Word Error),另一种是单词本身有效,但是不适用于整体文意,称为真字词错误(Real-Word Error),这两个错误都是字符层级的变异,与目标字词存在合理的编辑距离,因此拼写校正的核心,便是建立错误模型和语言模型。

整体来说,拼写校正是一个序列到序列的问题,要将拼写错误的文字,转换成为正确的形式,把错误看作是噪声的话,就可以把拼写校正工作,当作是将损毁的文字,转换为原始文字的降噪过程,微软采用类似脸书的BART技术,这是一个适用于自然语言生成、翻译和理解的单词等级降噪自动编码预训练方法。

微软设计了噪声函数,来模仿旋转、删除和替换等常见拼写错误,进而减少机器学习人工标签的需求,特别是对没有训练资料的语言来说特别有用,进而获得预训练模型,并且对模型进行微调,就可得到适用于特定语言的零样本或是少量样本学习。

使用了Speller100系统,可有效降低30%在Bing中没有结果的页面数,用户需要手动重组查询的次数也减少5%,而且也大幅增加了用户点击拼写建议的次数,从原本个位数百分比上升到67%,用户点击结果页面中任意连结的概率,也从原本的个位数百分比,上升到了70%。微软提到,这些数字说明了Speller100的效果。

2021-02-10 14:48:00

相关文章