APP下载

脸书机器翻译有新突破,即使没有大量训练资料AI也能学会翻译

消息来源:baojiabao.com 作者: 发布时间:2024-05-15

报价宝综合消息脸书机器翻译有新突破,即使没有大量训练资料AI也能学会翻译

脸书在EMLNP 2018上发表了最新的机器翻译成果,使用逐字初始化、语言建模和反向翻译三个步骤,作为无监督机器翻译的重要原则,而这样的方法比过去最先进的非监督训练方法,成果还要高10个BLEU点(一种衡量机器翻译准确性的方式)。对机器翻译来说,改进BLEU点数1点已经算是了不起的进展,而脸书的最新研究成果,BLEU点数大幅成长10点。

脸书为了想让平台上数十亿人,打破语言障碍互相交流连结,致力发展自动语言翻译技术。为了做到这一点,机器翻译系统需要存取大量的中文与英文相同翻译文本,目前机器翻译受到训练资源的限制,仅适用在能轻易获得大量翻译的小型语言子集。

脸书认为,在训练机器翻译模型时,不存取任何翻译资源的非监督训练方法,是必要的下一步。脸书新发表的这个机器翻译研究,在非监督式方法有显著的改善,成果相当于监督方法使用10万笔参照翻译,这对于机器翻译是一个重要的里程碑,尤其是世界上大多数的语言,可用于翻译训练的资源严重匮乏,以至于无法适用于现行系统。脸书提到,乌尔都语是其中一种缺乏资源的语言,而脸书的方法,可以让英文与乌尔都文只能存取各自不相关文本,就可以相互进行翻译。

脸书的第一步是要让系统学习双语辞典,将词汇与其他语言相对应的翻译进行连结。脸书让系统为每种语言中的每个单词学习单词嵌入(Word Embedding),单词嵌入训练是使用上下文来预测单词周围的单词,并以向量来表达这些单词间的关系。这个方法虽然简单,却可以捕捉到有趣的语意结构,像是英文Kitty最近的邻居Cat,Kitty会接近Animal的嵌入,而非其它很少同时出现如Rocket这样的单词。

即便是不同的语言,由于世界各地的人们都拥有相同的物质世界,单词嵌入都具有相似的邻近结构,脸书举例,像是英文中的Cat(猫)和Furry(毛皮)之间的关系,就像是西班牙文Gato(猫)和Peludo(毛茸茸),因为他们出现的频率和上下文使用时机都是相似的。脸书旋转这些单词嵌入的表达向量,以匹配对齐另一种语言单词嵌入,如此可以推断出一个相当准确的双语词典,无需存取任何翻译,并且基本上可以逐字翻译。

但使用以非监督式推断的双语词典,逐字翻译句子并不是一个很好主意,单词可能会遗漏、无序或是一般的错误。不过也并非完全无用,因为其中包保留了大部分的含意,脸书以单语资料训练的语言模型,对逐字翻译句子进行修正。因此只要有乌尔都语大量的单语资料集,就能和英文语言模型一起训练乌尔都语的语言模型。

有了语言模型和逐字初始化,就已经具备了翻译系统的雏形,可以把大量的乌尔都文翻译成英文,而这些机器翻译的句子,会再被用来训练从英文到乌尔都文的反向机器翻译系统。反向翻译的概念最早在2015年被提出来,但当时使用在监督学习环境中,而脸书把这个技术首次用在非监督式系统中。

经过这些程序得到了乌尔都文语言模型,为了取得更好的结果,脸书将人工翻译的句子,与机器翻译的句子进行校对,便能训练出从英语到乌尔都语的翻译系统。这时脸书把更多的英文句子翻译成乌尔都文,这些翻译的乌尔都文句子,可以再帮助改进乌尔都文到英文的机器翻译系统,这样的迭代循环,可以让系统的翻译能力越来越好。

脸书经过这些实验流程,确立了机器翻译必经的三个步骤,为逐字初始化、语言建模和反向翻译。脸书应用这样的原则,推导出不同的模型,其中一个是非监督神经模型,虽然产生的句子并不理想,但是可以用于产生反向翻译的训练资料,另一个则是传统基于计数的统计方法,称为短语(Phrase-based)机器翻译,这类模型对于低资源语言翻译特别有用。

脸书结合这两种模型,以获得双方的优点,翻译结果明显比先前非监督机器学习方法还好,特别是在英文对法文以及英文对德文的翻译,成果提高了10个BLEU点。即使在关系较远的语言翻译,像是英文对俄文,或是资源匮乏的英文对罗马尼亚语以及英文对乌尔都文,都比起过去的非监督方法好许多,甚至超越监督式方法。

2018-09-04 23:31:00

相关文章