Google以多语言训练单一神经机器翻译模型，可同时提升低资源和多资源语言翻译品质最新消息

Google以多语言训练单一神经机器翻译模型，可同时提升低资源和多资源语言翻译品质

消息来源:baojiabao.com 作者: 发布时间：2024-05-13

报价宝综合消息Google以多语言训练单一神经机器翻译模型，可同时提升低资源和多资源语言翻译品质

Google在其最新一系列的机器翻译的研究，使用超过100种语言共计250亿个句子，训练单一神经机器翻译（Neural Machine Translation，NMT）模型，结果显示，这种大量语言的大规模神经机器翻译方法（M4）无论是在低资源还是多资源的语言上，都能大幅改进语言翻译品质。

Google表示，过去几年机器翻译的品质有很大幅的进展，但这些进展极大程度归功于大量监督式训练资料，但是对于训练资料稀少甚至是缺乏的语言，情况就变得棘手许多。为此，Google发展了多语言NMT，使得单一语言的学习讯号，可以用作帮助提升其他语言的翻译品质。

先前的研究已经证明在自动语音辨识和文字转语音上，多语言训练可以提升训练资料稀少的语言翻译品质，而过去Google也曾在控制每个语言训练资料数量的情况下，进行在单一神经网络上训练数种语言的研究，而在这个最新的研究中，Google移除了所有的限制，不只使用单一模型来训练多种语言，而且同时用上所有语言的可用训练资料，无论资料大小、复杂度或是领域等条件。

跨语言训练资料量不对等所产生的资料偏斜，在NMT是一个很大的问题，M4的想法就是要透过另一种语言训练所获得的翻译成果，来弥补这个问题，多资源的语言诸如法文、德文以及西班牙文等，动辄都有数十亿笔的训练资料，但是像是夏威夷语、约鲁巴语和信德语，监督训练资料最多可能就数万笔。

Google观察将所有可用资料一并输入进行训练，包括了103种语言超过250亿笔的范例语句，对低资源语言的翻译有非常大的帮助，特别是资源最少的30多种语言，翻译品质平均都提升了5个BLEU分数。不过，在模型中增加低资源的语言会让高资源语言的翻译品质下降，Google解释，这是因为任务间竞争以及从高资源到低资源迁移的单向性质所造成，Google透过改善学习算法以及增强算法的控制能力，来减轻这些问题。

Google增加模型参数的数量，来扩大神经网络的表示能力，进而提升高资源语言的翻译品质。而扩大模型容量的策略有很多种，Google先是增加模型深度，平均可以提升所有语言翻译品质5个BLEU分数，另外，Google修改了Transformer的架构，极大化了模型容量，成功训练与传递500亿个参数，更进一步提高整体翻译品质。

对每种语言或是领域单独训练大型模型，不只成本很高而且效率不佳，而相对来说，M4只要透过调整模型可调层（Tunable Layer），适应特定的语言或是领域，就能获得极佳的成果，是比过去还要实用的方法。Google提到，全世界现在有7,000种语言，而在这个世纪末将有一半的语言会消失，M4可能是一个救援濒临灭绝语言的可行方法，Google的下一个目标是要在M4使用1,000种语言。

2019-10-15 13:48:00

Google以多语言训练单一神经机器翻译模型，可同时提升低资源和多资源语言翻译品质

品牌选车