APP下载

Google以多语言训练单一神经机器翻译模型,可同时提升低资源和多资源语言翻译品质

消息来源:baojiabao.com 作者: 发布时间:2024-05-13

报价宝综合消息Google以多语言训练单一神经机器翻译模型,可同时提升低资源和多资源语言翻译品质

Google在其最新一系列的机器翻译的研究,使用超过100种语言共计250亿个句子,训练单一神经机器翻译(Neural Machine Translation,NMT)模型,结果显示,这种大量语言的大规模神经机器翻译方法(M4)无论是在低资源还是多资源的语言上,都能大幅改进语言翻译品质。

Google表示,过去几年机器翻译的品质有很大幅的进展,但这些进展极大程度归功于大量监督式训练资料,但是对于训练资料稀少甚至是缺乏的语言,情况就变得棘手许多。为此,Google发展了多语言NMT,使得单一语言的学习讯号,可以用作帮助提升其他语言的翻译品质。

先前的研究已经证明在自动语音辨识和文字转语音上,多语言训练可以提升训练资料稀少的语言翻译品质,而过去Google也曾在控制每个语言训练资料数量的情况下,进行在单一神经网络上训练数种语言的研究,而在这个最新的研究中,Google移除了所有的限制,不只使用单一模型来训练多种语言,而且同时用上所有语言的可用训练资料,无论资料大小、复杂度或是领域等条件。

跨语言训练资料量不对等所产生的资料偏斜,在NMT是一个很大的问题,M4的想法就是要透过另一种语言训练所获得的翻译成果,来弥补这个问题,多资源的语言诸如法文、德文以及西班牙文等,动辄都有数十亿笔的训练资料,但是像是夏威夷语、约鲁巴语和信德语,监督训练资料最多可能就数万笔。

Google观察将所有可用资料一并输入进行训练,包括了103种语言超过250亿笔的范例语句,对低资源语言的翻译有非常大的帮助,特别是资源最少的30多种语言,翻译品质平均都提升了5个BLEU分数。不过,在模型中增加低资源的语言会让高资源语言的翻译品质下降,Google解释,这是因为任务间竞争以及从高资源到低资源迁移的单向性质所造成,Google透过改善学习算法以及增强算法的控制能力,来减轻这些问题。

Google增加模型参数的数量,来扩大神经网络的表示能力,进而提升高资源语言的翻译品质。而扩大模型容量的策略有很多种,Google先是增加模型深度,平均可以提升所有语言翻译品质5个BLEU分数,另外,Google修改了Transformer的架构,极大化了模型容量,成功训练与传递500亿个参数,更进一步提高整体翻译品质。

对每种语言或是领域单独训练大型模型,不只成本很高而且效率不佳,而相对来说,M4只要透过调整模型可调层(Tunable Layer),适应特定的语言或是领域,就能获得极佳的成果,是比过去还要实用的方法。Google提到,全世界现在有7,000种语言,而在这个世纪末将有一半的语言会消失,M4可能是一个救援濒临灭绝语言的可行方法,Google的下一个目标是要在M4使用1,000种语言。

2019-10-15 13:48:00

相关文章