Google在其最新一系列的机器翻译的研究,使用超过100种语言共计250亿个句子,训练单一神经机器翻译(Neural Machine Translation,NMT)模型,结果显示,这种大量语言的大规模神经机器翻译方法(M4)无论是在低资源还是多资源的语言上,都能大幅改进语言翻译品质。
Google表示,过去几年机器翻译的品质有很大幅的进展,但这些进展极大程度归功于大量监督式训练资料,但是对于训练资料稀少甚至是缺乏的语言,情况就变得棘手许多。为此,Google发展了多语言NMT,使得单一语言的学习讯号,可以用作帮助提升其他语言的翻译品质。
先前的研究已经证明在自动语音辨识和文字转语音上,多语言训练可以提升训练资料稀少的语言翻译品质,而过去Google也曾在控制每个语言训练资料数量的情况下,进行在单一神经网络上训练数种语言的研究,而在这个最新的研究中,Google移除了所有的限制,不只使用单一模型来训练多种语言,而且同时用上所有语言的可用训练资料,无论资料大小、复杂度或是领域等条件。
跨语言训练资料量不对等所产生的资料偏斜,在NMT是一个很大的问题,M4的想法就是要透过另一种语言训练所获得的翻译成果,来弥补这个问题,多资源的语言诸如法文、德文以及西班牙文等,动辄都有数十亿笔的训练资料,但是像是夏威夷语、约鲁巴语和信德语,监督训练资料最多可能就数万笔。
Google观察将所有可用资料一并输入进行训练,包括了103种语言超过250亿笔的范例语句,对低资源语言的翻译有非常大的帮助,特别是资源最少的30多种语言,翻译品质平均都提升了5个BLEU分数。不过,在模型中增加低资源的语言会让高资源语言的翻译品质下降,Google解释,这是因为任务间竞争以及从高资源到低资源迁移的单向性质所造成,Google透过改善学习算法以及增强算法的控制能力,来减轻这些问题。
Google增加模型参数的数量,来扩大神经网络的表示能力,进而提升高资源语言的翻译品质。而扩大模型容量的策略有很多种,Google先是增加模型深度,平均可以提升所有语言翻译品质5个BLEU分数,另外,Google修改了Transformer的架构,极大化了模型容量,成功训练与传递500亿个参数,更进一步提高整体翻译品质。
对每种语言或是领域单独训练大型模型,不只成本很高而且效率不佳,而相对来说,M4只要透过调整模型可调层(Tunable Layer),适应特定的语言或是领域,就能获得极佳的成果,是比过去还要实用的方法。Google提到,全世界现在有7,000种语言,而在这个世纪末将有一半的语言会消失,M4可能是一个救援濒临灭绝语言的可行方法,Google的下一个目标是要在M4使用1,000种语言。
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11
最新资讯
- YouTube更新违反规定政策,提升惩处透明度和一致性2023-12-31 14:00:52
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
- 吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市 预售价格22.99万元2023-12-28 19:30:28
- 日本丰田汽车厂11月全球产量创新高2023-12-28 19:26:02
手机
- 中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
- 荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
- 美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
- 苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
- 香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
- 华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
- 腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
- 三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
- 三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
- vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
- 中兴受美国制裁事件 被罚了20亿美元过程事件始末 中兴被制裁后公司现状2023-11-02 22:12:46
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09