脸书机器翻译有新突破，即使没有大量训练资料AI也能学会翻译最新消息

脸书机器翻译有新突破，即使没有大量训练资料AI也能学会翻译

消息来源:baojiabao.com 作者: 发布时间：2024-05-15

报价宝综合消息脸书机器翻译有新突破，即使没有大量训练资料AI也能学会翻译

脸书在EMLNP 2018上发表了最新的机器翻译成果，使用逐字初始化、语言建模和反向翻译三个步骤，作为无监督机器翻译的重要原则，而这样的方法比过去最先进的非监督训练方法，成果还要高10个BLEU点（一种衡量机器翻译准确性的方式）。对机器翻译来说，改进BLEU点数1点已经算是了不起的进展，而脸书的最新研究成果，BLEU点数大幅成长10点。

脸书为了想让平台上数十亿人，打破语言障碍互相交流连结，致力发展自动语言翻译技术。为了做到这一点，机器翻译系统需要存取大量的中文与英文相同翻译文本，目前机器翻译受到训练资源的限制，仅适用在能轻易获得大量翻译的小型语言子集。

脸书认为，在训练机器翻译模型时，不存取任何翻译资源的非监督训练方法，是必要的下一步。脸书新发表的这个机器翻译研究，在非监督式方法有显著的改善，成果相当于监督方法使用10万笔参照翻译，这对于机器翻译是一个重要的里程碑，尤其是世界上大多数的语言，可用于翻译训练的资源严重匮乏，以至于无法适用于现行系统。脸书提到，乌尔都语是其中一种缺乏资源的语言，而脸书的方法，可以让英文与乌尔都文只能存取各自不相关文本，就可以相互进行翻译。

脸书的第一步是要让系统学习双语辞典，将词汇与其他语言相对应的翻译进行连结。脸书让系统为每种语言中的每个单词学习单词嵌入（Word Embedding），单词嵌入训练是使用上下文来预测单词周围的单词，并以向量来表达这些单词间的关系。这个方法虽然简单，却可以捕捉到有趣的语意结构，像是英文Kitty最近的邻居Cat，Kitty会接近Animal的嵌入，而非其它很少同时出现如Rocket这样的单词。

即便是不同的语言，由于世界各地的人们都拥有相同的物质世界，单词嵌入都具有相似的邻近结构，脸书举例，像是英文中的Cat（猫）和Furry（毛皮）之间的关系，就像是西班牙文Gato（猫）和Peludo（毛茸茸），因为他们出现的频率和上下文使用时机都是相似的。脸书旋转这些单词嵌入的表达向量，以匹配对齐另一种语言单词嵌入，如此可以推断出一个相当准确的双语词典，无需存取任何翻译，并且基本上可以逐字翻译。

但使用以非监督式推断的双语词典，逐字翻译句子并不是一个很好主意，单词可能会遗漏、无序或是一般的错误。不过也并非完全无用，因为其中包保留了大部分的含意，脸书以单语资料训练的语言模型，对逐字翻译句子进行修正。因此只要有乌尔都语大量的单语资料集，就能和英文语言模型一起训练乌尔都语的语言模型。

有了语言模型和逐字初始化，就已经具备了翻译系统的雏形，可以把大量的乌尔都文翻译成英文，而这些机器翻译的句子，会再被用来训练从英文到乌尔都文的反向机器翻译系统。反向翻译的概念最早在2015年被提出来，但当时使用在监督学习环境中，而脸书把这个技术首次用在非监督式系统中。

经过这些程序得到了乌尔都文语言模型，为了取得更好的结果，脸书将人工翻译的句子，与机器翻译的句子进行校对，便能训练出从英语到乌尔都语的翻译系统。这时脸书把更多的英文句子翻译成乌尔都文，这些翻译的乌尔都文句子，可以再帮助改进乌尔都文到英文的机器翻译系统，这样的迭代循环，可以让系统的翻译能力越来越好。

脸书经过这些实验流程，确立了机器翻译必经的三个步骤，为逐字初始化、语言建模和反向翻译。脸书应用这样的原则，推导出不同的模型，其中一个是非监督神经模型，虽然产生的句子并不理想，但是可以用于产生反向翻译的训练资料，另一个则是传统基于计数的统计方法，称为短语（Phrase-based）机器翻译，这类模型对于低资源语言翻译特别有用。

脸书结合这两种模型，以获得双方的优点，翻译结果明显比先前非监督机器学习方法还好，特别是在英文对法文以及英文对德文的翻译，成果提高了10个BLEU点。即使在关系较远的语言翻译，像是英文对俄文，或是资源匮乏的英文对罗马尼亚语以及英文对乌尔都文，都比起过去的非监督方法好许多，甚至超越监督式方法。

2018-09-04 23:31:00