APP下载

Google翻译品质大进步,少资源语言翻译更流利

消息来源:baojiabao.com 作者: 发布时间:2024-04-19

报价宝综合消息Google翻译品质大进步,少资源语言翻译更流利

Google近期多项自动翻译的技术改进,不只更换模型,也让模型训练可以应用从网络上抓取,具有许多噪声的资料,因而大幅提升了翻译品质,让100多种语言翻译到英文的的BLEU分数,平均提高5分,尤其是低资源语言的翻译,更是有长足进展。

机器学习技术的发展,同时也带动了自动翻译前进的脚步,在2016年Google翻译使用了GNMT神经翻译模型,极大程度地提升100多种语言的翻译品质,但即便是最先进的系统,在各方面的表现仍然远远落后人类,Google提到,具有大量训练资料的语言,像是西班牙语与德语,翻译表现较佳,但是例如马拉雅拉姆语和约鲁巴语,仍然有许多需要改进的地方。

现在有不少研究,在受控制的环境中,能提升低资源语言的翻译品质,但Google表示,这些技术要扩展应用到从网络爬抓来的大量资料集并不容易。而Google透过合成和扩展最新方法,让这些技术得以应用这些具有噪声的资料集,因此能往前推进自动翻译成果,这些技术包括改进模型基础架构以及训练方法、降低资料集的噪声影响,并透过M4建模增加对多语言迁移学习。

Google替换了4年前基于RNN的GNMT模型,现在以TensorFlow框架Lingvo重新实作,使用Transformer编码器以及RNN解码器来训练模型。新的Transformer模型在机器翻译上比RNN模型效果更好,Google解释,翻译品质提升来自Transformer编码器,RNN解码器则是在推理时更快,Google混合两者,让模型训练更稳且延迟更短。

在神经机器翻译中,用来训练模型的资料,是经过翻译的例句和文件,这些资料通常从公开的网站收集而来,而现在Google更新了资料收集系统,收集到的句子数量增加约30%,且新的资料探勘程式更讲究精确率而非召回率,所收集到的训练资料品质更好。由于训练资料的噪声会影响模型品质,为了解决噪声问题,Google先让模型用存在噪声的资料进行训练,接着再以较小且较干净的资料子集进行训练校正。

Google翻译现在也使用反向翻译技术,来提升低资源语言的翻译品质,反向翻译是使用合成的平行资料来强化平行训练资料,合成平行训练资料是指人类编写的句子,搭配以神经翻译模型生成的句子所组成的句子对。透过将反向翻译整合到Google翻译中,可使网络资源较少的语言,有更好的翻译模型输出流利性。另外,M4建模也是一种对低资源语言有用的技术,M4使用单一大型模型,进行所有语言和英语间的翻译,而这将能达到大规模的迁移学习,为模型提供有用的语言讯号。

这些技术的改进,提升了机器翻译自动评估指标BLEU的分数,现在Google翻译新模型的BLEU,比起之前GNMT模型平均高出5分,而50种少资源语言的BLEU分数,平均更是增加7分。除了整体品质提升之外,新模型对机器翻译幻觉(Hallucination)有更好的强健性,减少输入无意义的文字时,会产生奇怪翻译的状况。

2020-06-10 10:48:00

相关文章