脸书在EMLNP 2018上发表了最新的机器翻译成果,使用逐字初始化、语言建模和反向翻译三个步骤,作为无监督机器翻译的重要原则,而这样的方法比过去最先进的非监督训练方法,成果还要高10个BLEU点(一种衡量机器翻译准确性的方式)。对机器翻译来说,改进BLEU点数1点已经算是了不起的进展,而脸书的最新研究成果,BLEU点数大幅成长10点。
脸书为了想让平台上数十亿人,打破语言障碍互相交流连结,致力发展自动语言翻译技术。为了做到这一点,机器翻译系统需要存取大量的中文与英文相同翻译文本,目前机器翻译受到训练资源的限制,仅适用在能轻易获得大量翻译的小型语言子集。
脸书认为,在训练机器翻译模型时,不存取任何翻译资源的非监督训练方法,是必要的下一步。脸书新发表的这个机器翻译研究,在非监督式方法有显著的改善,成果相当于监督方法使用10万笔参照翻译,这对于机器翻译是一个重要的里程碑,尤其是世界上大多数的语言,可用于翻译训练的资源严重匮乏,以至于无法适用于现行系统。脸书提到,乌尔都语是其中一种缺乏资源的语言,而脸书的方法,可以让英文与乌尔都文只能存取各自不相关文本,就可以相互进行翻译。
脸书的第一步是要让系统学习双语辞典,将词汇与其他语言相对应的翻译进行连结。脸书让系统为每种语言中的每个单词学习单词嵌入(Word Embedding),单词嵌入训练是使用上下文来预测单词周围的单词,并以向量来表达这些单词间的关系。这个方法虽然简单,却可以捕捉到有趣的语意结构,像是英文Kitty最近的邻居Cat,Kitty会接近Animal的嵌入,而非其它很少同时出现如Rocket这样的单词。
即便是不同的语言,由于世界各地的人们都拥有相同的物质世界,单词嵌入都具有相似的邻近结构,脸书举例,像是英文中的Cat(猫)和Furry(毛皮)之间的关系,就像是西班牙文Gato(猫)和Peludo(毛茸茸),因为他们出现的频率和上下文使用时机都是相似的。脸书旋转这些单词嵌入的表达向量,以匹配对齐另一种语言单词嵌入,如此可以推断出一个相当准确的双语词典,无需存取任何翻译,并且基本上可以逐字翻译。
但使用以非监督式推断的双语词典,逐字翻译句子并不是一个很好主意,单词可能会遗漏、无序或是一般的错误。不过也并非完全无用,因为其中包保留了大部分的含意,脸书以单语资料训练的语言模型,对逐字翻译句子进行修正。因此只要有乌尔都语大量的单语资料集,就能和英文语言模型一起训练乌尔都语的语言模型。
有了语言模型和逐字初始化,就已经具备了翻译系统的雏形,可以把大量的乌尔都文翻译成英文,而这些机器翻译的句子,会再被用来训练从英文到乌尔都文的反向机器翻译系统。反向翻译的概念最早在2015年被提出来,但当时使用在监督学习环境中,而脸书把这个技术首次用在非监督式系统中。
经过这些程序得到了乌尔都文语言模型,为了取得更好的结果,脸书将人工翻译的句子,与机器翻译的句子进行校对,便能训练出从英语到乌尔都语的翻译系统。这时脸书把更多的英文句子翻译成乌尔都文,这些翻译的乌尔都文句子,可以再帮助改进乌尔都文到英文的机器翻译系统,这样的迭代循环,可以让系统的翻译能力越来越好。
脸书经过这些实验流程,确立了机器翻译必经的三个步骤,为逐字初始化、语言建模和反向翻译。脸书应用这样的原则,推导出不同的模型,其中一个是非监督神经模型,虽然产生的句子并不理想,但是可以用于产生反向翻译的训练资料,另一个则是传统基于计数的统计方法,称为短语(Phrase-based)机器翻译,这类模型对于低资源语言翻译特别有用。
脸书结合这两种模型,以获得双方的优点,翻译结果明显比先前非监督机器学习方法还好,特别是在英文对法文以及英文对德文的翻译,成果提高了10个BLEU点。即使在关系较远的语言翻译,像是英文对俄文,或是资源匮乏的英文对罗马尼亚语以及英文对乌尔都文,都比起过去的非监督方法好许多,甚至超越监督式方法。
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11
最新资讯
- YouTube更新违反规定政策,提升惩处透明度和一致性2023-12-31 14:00:52
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
- 吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市 预售价格22.99万元2023-12-28 19:30:28
- 日本丰田汽车厂11月全球产量创新高2023-12-28 19:26:02
手机
- 中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
- 荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
- 美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
- 苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
- 香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
- 华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
- 腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
- 三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
- 三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
- vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
- 中兴受美国制裁事件 被罚了20亿美元过程事件始末 中兴被制裁后公司现状2023-11-02 22:12:46
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09