微软揭露目前规模最大的语言拼写校正系统Speller100最新消息

微软揭露目前规模最大的语言拼写校正系统Speller100

消息来源:baojiabao.com 作者: 发布时间：2026-05-21

报价宝综合消息微软揭露目前规模最大的语言拼写校正系统Speller100

微软开发了一个称为Speller100的系统，官方提到，这是有史以来覆盖最多种语言，并且准确性最高的拼写校正系统，Speller100能够校正100多种语言的拼写，进而改善Bing用户的搜寻结果。

微软搜索引擎Bing服务全球用户，接受100多种语言的查询，而在用户提交的查询中，约有15％的存在拼写错误，而使用带有拼写错误的资料查询，便会得到错误的答案，降低查询结果的品质，因此拼写校正是Bing搜寻堆叠中排序很前面的元件，因为能够有效改善所有下游搜寻元件的结果。

在很长一段时间，微软都只提供大约20种语言的拼写校正，而其他语言的使用者，则必须手动修正错误查询，或是接受较差的搜寻结果，而微软为了要提升Bing的搜寻品质，将当前的拼写校正服务扩展至100多种语言，并且要为这些语言，提供与原本20种语言相同的校正品质。但微软很快就发现这是一个极困难的目标，因为模型需要有大量的资料来训练每一种语言的模型，更别说要收集100种语言的资料，势必付出难以计数的时间和金钱。

微软克服了这个困难，推出了高精确度和高召回率的大规模多语言拼写校正模型，这些模型被统称为Speller100，微软主要使用了零样本学习（Zero-Shot Ｌearning）以及大规模预训练技术，来达成这样的目标。

传统拼写校正解决方案，都是使用网络上的资料，来强化语言模型，但这种方法仅对存在大量资料的语言有效，对于网络只有少数资料，用户回馈也少的语言，要收集足够的训练资料，是一个大挑战，因此微软认为，这些语言模型不能只仰赖训练资料，来学习某种语言的拼写。Speller100的基础是使用语言家族的概念，以多种语言共享的相似性，来组成更大一组的语言。

而零样本则是另一个概念，可以让语言模型更准确地学习和校正拼写，不需要特定语言的标注训练资料，微软解释，这就像是人们自动学习了德语、荷兰语、南非荷兰语、苏格兰语和卢森堡语的拼写，这是Speller100中的关键元件，可以将拼写校正扩展到非常少，甚至是没有资料的语言。

虽然目前BERT、UniLM和DeBERTa等大型Transformer网络在自然语言处理上，已经有很大的进步，能够用于下一句预测和翻译等工作，但微软提到，拼写是完全不同的语言任务。广义上来说，拼写存在2种错误，一种是单词不存在于特定语言词汇表中，称为非字词错误（Non-Word Error），另一种是单词本身有效，但是不适用于整体文意，称为真字词错误（Real-Word Error），这两个错误都是字符层级的变异，与目标字词存在合理的编辑距离，因此拼写校正的核心，便是建立错误模型和语言模型。

整体来说，拼写校正是一个序列到序列的问题，要将拼写错误的文字，转换成为正确的形式，把错误看作是噪声的话，就可以把拼写校正工作，当作是将损毁的文字，转换为原始文字的降噪过程，微软采用类似脸书的BART技术，这是一个适用于自然语言生成、翻译和理解的单词等级降噪自动编码预训练方法。

微软设计了噪声函数，来模仿旋转、删除和替换等常见拼写错误，进而减少机器学习人工标签的需求，特别是对没有训练资料的语言来说特别有用，进而获得预训练模型，并且对模型进行微调，就可得到适用于特定语言的零样本或是少量样本学习。

使用了Speller100系统，可有效降低30％在Bing中没有结果的页面数，用户需要手动重组查询的次数也减少5％，而且也大幅增加了用户点击拼写建议的次数，从原本个位数百分比上升到67％，用户点击结果页面中任意连结的概率，也从原本的个位数百分比，上升到了70％。微软提到，这些数字说明了Speller100的效果。

2021-02-10 14:48:00

微软揭露目前规模最大的语言拼写校正系统Speller100

品牌选车