APP下载

挑战方言和口语的机器翻译难题,微软靠迁移学习解决相对应语句训练资料不足问题

消息来源:baojiabao.com 作者: 发布时间:2024-04-19

报价宝综合消息挑战方言和口语的机器翻译难题,微软靠迁移学习解决相对应语句训练资料不足问题

继微软3月中发布AI机器中翻英程度达到人类专业水准之后,最近又持续挑战机器翻译的难题-方言和口语,透过迁移学习将训练资源高的语言转移到资源低的语言上,搭配半监督式学习方法,解决了对应语句训练资料不足的问题,成功开发出高品质的方言和口语翻译器。

机器翻译通常仰赖两种语言的平行对应语料数据库来训练模型,像是前阵子中翻英的模型即用了数千万个平行语句当作训练资料,不过,由于大多数的方言和口语都没有足够的相对应语料当作训练资料集,翻译方言和口语一直是机器翻译的一大难题之一。

除了没有足够的训练资料之外,方言和口语也没有固定的风格和形式,与正式的书面文件和社群媒体上的文字都不相同,要取得平行语句也是更加困难。

为了解决这个问题,微软利用半监督式的方法来训练翻译神经网络,只需要数千对平行语句当作训练资料,就能产生高品质的翻译结果。

微软首先利用了迁移学习的方法,将跨多种语言资源的词汇和句子表示成一种目标语言,不同语言来源将会包含资源高和低,系统的目标即是要让学习模型共享来源,进而增强资源较低的语言,微软的系统架构针对神经机器翻译框架调整了2个地方,进而让半监督式的方法变得可行。

在词汇的部分,微软透过通用词汇表示(ULR)来共享不同语言的词汇,另外,微软还用了专家模型来代表所有语言源的句子共享,透过这两项修改,能够让较少资源的语言用词汇和句子特征,来对应到资源较高的语言中。

在微软的实验中,微软首先用一般的方式训练模型,来进行多语言翻译,模型使用了6,000个平行句子来学习翻译罗马尼亚语和英语,以及拉脱维亚语和英语。

接着,微软则是先在高资源的语言上训练模型,再套用到低资源的语言上,并进行微调,该模型也是用了罗马尼亚语对应英语的6,000个平行句子训练,经过微调,模型可以在2分钟内将预先训练好的模型转移到新的低资源语言上。

2018-05-22 12:32:00

相关文章