Google翻译品质大进步，少资源语言翻译更流利最新消息

Google翻译品质大进步，少资源语言翻译更流利

消息来源:baojiabao.com 作者: 发布时间：2024-04-19

报价宝综合消息Google翻译品质大进步，少资源语言翻译更流利

Google近期多项自动翻译的技术改进，不只更换模型，也让模型训练可以应用从网络上抓取，具有许多噪声的资料，因而大幅提升了翻译品质，让100多种语言翻译到英文的的BLEU分数，平均提高5分，尤其是低资源语言的翻译，更是有长足进展。

机器学习技术的发展，同时也带动了自动翻译前进的脚步，在2016年Google翻译使用了GNMT神经翻译模型，极大程度地提升100多种语言的翻译品质，但即便是最先进的系统，在各方面的表现仍然远远落后人类，Google提到，具有大量训练资料的语言，像是西班牙语与德语，翻译表现较佳，但是例如马拉雅拉姆语和约鲁巴语，仍然有许多需要改进的地方。

现在有不少研究，在受控制的环境中，能提升低资源语言的翻译品质，但Google表示，这些技术要扩展应用到从网络爬抓来的大量资料集并不容易。而Google透过合成和扩展最新方法，让这些技术得以应用这些具有噪声的资料集，因此能往前推进自动翻译成果，这些技术包括改进模型基础架构以及训练方法、降低资料集的噪声影响，并透过M4建模增加对多语言迁移学习。

Google替换了4年前基于RNN的GNMT模型，现在以TensorFlow框架Lingvo重新实作，使用Transformer编码器以及RNN解码器来训练模型。新的Transformer模型在机器翻译上比RNN模型效果更好，Google解释，翻译品质提升来自Transformer编码器，RNN解码器则是在推理时更快，Google混合两者，让模型训练更稳且延迟更短。

在神经机器翻译中，用来训练模型的资料，是经过翻译的例句和文件，这些资料通常从公开的网站收集而来，而现在Google更新了资料收集系统，收集到的句子数量增加约30％，且新的资料探勘程式更讲究精确率而非召回率，所收集到的训练资料品质更好。由于训练资料的噪声会影响模型品质，为了解决噪声问题，Google先让模型用存在噪声的资料进行训练，接着再以较小且较干净的资料子集进行训练校正。

Google翻译现在也使用反向翻译技术，来提升低资源语言的翻译品质，反向翻译是使用合成的平行资料来强化平行训练资料，合成平行训练资料是指人类编写的句子，搭配以神经翻译模型生成的句子所组成的句子对。透过将反向翻译整合到Google翻译中，可使网络资源较少的语言，有更好的翻译模型输出流利性。另外，M4建模也是一种对低资源语言有用的技术，M4使用单一大型模型，进行所有语言和英语间的翻译，而这将能达到大规模的迁移学习，为模型提供有用的语言讯号。

这些技术的改进，提升了机器翻译自动评估指标BLEU的分数，现在Google翻译新模型的BLEU，比起之前GNMT模型平均高出5分，而50种少资源语言的BLEU分数，平均更是增加7分。除了整体品质提升之外，新模型对机器翻译幻觉（Hallucination）有更好的强健性，减少输入无意义的文字时，会产生奇怪翻译的状况。

2020-06-10 10:48:00

Google翻译品质大进步，少资源语言翻译更流利

品牌选车