突破 100 种,微软翻译新增对 12 种语言/方言支持,包括藏语、维吾尔语...
消息来源:baojiabao.com 作者: 发布时间:2024-05-15
最新 10 月 12 日消息,微软翻译今天宣布支持 12 种新的语言和方言。有了这项支持,微软翻译现在总共支持 103 种语言,覆盖了世界人口的 72%。有了这个版本,微软翻译服务可以将文本和文件翻译成全世界 56.6 亿人所使用的本土语言。
最新获悉,微软翻译新增加的语言是巴什基尔语、迪维希语、格鲁吉亚语、吉尔吉斯语、马其顿语、蒙古语(西里尔语)、蒙古语(传统版)、塔塔尔语、藏语、土库曼语、维吾尔语和乌兹别克语(拉丁语)。这些新语言有 8460 万人使用。
微软技术研究员和 Azure 人工智能首席技术官黄学东说:"一百种语言对我们来说是一个很好的里程碑,可以实现我们的雄心壮志,让每个人无论说什么语言都能进行交流。"
微软翻译的演变
20 多年前,微软研究院首次开发了机器翻译系统。2003 年,一个机器翻译系统将整个微软知识库从英文翻译成西班牙文、法文、德文和日文,并将翻译内容发布在其网站上,成为当时互联网上最大的面向公众的原始机器翻译应用。
微软在统计机器翻译(SMT)模型的基础上进一步发展了这些系统,并通过 Windows Live Translator、Translator API 以及微软 Office 应用程序的内置功能向公众提供。
微软表示,多年来,我们为世界上许多最常用的语言增加了翻译系统。随着人工智能(AI)技术的发展,微软采用了神经机器翻译(NMT)技术,并将所有机器翻译系统迁移到基于 Transformer 技术的神经模型上,实现了翻译流畅性和准确性的巨大提升。
虽然 NMT 技术显著提高了整体翻译质量,但 Transformer 架构的出现为创建机器翻译模型铺平了新的道路,使其能够用比以前更少的材料进行训练。使用多语言 Transformer 架构,现在可以用其他语言的材料来增加训练数据,通常是在同一或相关的语言家族中,为数据量小的语言制作模型,通常被称为低资源语言。
即使有了这些技术,也必须要有一套目标语言的数字文件,以及另一种已经包括在内的语言的翻译--通常被称为 parallel 文件。
▲ 微软翻译所翻译的语言数量折线图,从 2007 年的 7 种到 2021 年的 100 多种。该系统从 2007 年到 2016 年一直使用统计机器翻译(SMT)。2016 年采用神经机器翻译(NMT)技术有助于提高翻译质量,2019 年采用 Transformer 架构,使微软团队能够用较少的数据量为低资源语言建立模型。
在增加新语言时,微软表示,最大的挑战之一是获得训练和制作机器翻译模型所需的足够的双语数据。这些数据由高质量的人工翻译内容组成,既包括想要添加的语言,也包括该服务已经支持的语言之一。对于许多语言来说,这种双语数据是很难获得的,特别是对于数字资源不足或濒临灭绝的语言。
微软称,很幸运与语言社区的伙伴合作,他们可以获得人工翻译的文本,并可以帮助收集资源不足的语言的数据。这些社区合作伙伴,通常是与他们各自社区合作的志愿者,通过咨询社区成员,不辞辛苦地收集双语句子。然后,他们评估所产生的机器翻译模型的质量。
Azure 认知服务翻译在微软产品中公开了 NMT 模型,并通过文本翻译和文档翻译 API 向翻译客户公开。这些 API 将纯文本和复杂文件从一种语言翻译成另一种语言。Azure 认知服务翻译器 API 可在公共云和安全的微软 Azure 政府云中使用。此外,文本翻译 API 在 Docker 容器中可用,允许客户在企业内部处理内容以满足特定的监管要求。
Azure 认知服务翻译还包括自定义翻译服务,该服务使用户能够使用自己的翻译记忆库来建立自定义机器翻译模型,以翻译其业务和相关行业中使用的特定领域术语。这些自定义机器翻译模型可以通过文本和文档翻译 API 使用。
为了翻译音频或语音内容,Azure 认知服务翻译与 Azure 认知服务语音紧密结合,通过 Azure 语音 SDK 支持语音翻译和多设备对话。
Azure 认知服务翻译器及其支持的产品被客户广泛采用。该服务无缝集成到许多微软产品中,并随时供每个人使用和创建他们选择的语言内容。一些微软产品整合包括用于翻译文本和文件的 Microsoft 365,用于翻译整个网页的 Microsoft Edge 浏览器,用于翻译信息的 SwiftKey,用于翻译用户提交的内容的 LinkedIn,用于在移动中进行多语言对话的 Translator 应用程序,以及更多。
2022-05-08 03:44:16相关文章
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩
2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万9
2023-12-28 19:41:57
- 国家新闻出版署:认真研究《网络游戏管理办法(草桉徵求意见稿)》关切 实行前进一步完善
2023-12-28 19:14:56
- 天猫新规可以无条件申请“仅退款”了?淘宝天猫又离狗多多零元购近了一步
2023-12-28 18:57:55
- 印度以打击金融犯罪为由逮捕了两名 vivo 高管
2023-12-26 16:49:01
- 在国外微信收不到国内信息?微信和WeChat将被拆分
2023-12-15 10:40:15
- 苹果iPhone15 系列手机发布最新消息 预计上市发布时间9月
2023-08-06 23:21:02
- 华为将发布鸿蒙HarmonyOS4操作系统 功能五大升级支持设备清单
2023-08-06 23:17:37
- 整治自媒体网红账号 400万粉丝网红发布擦边视频被无限期封禁
2023-07-12 09:56:09
- 网传微信文件传输助手是真人是真的吗?微信官方回应
2023-06-27 15:53:32
- 电信移动送手机成了“信用购”?你上了运营商的贷款套路了吗?
2023-06-12 17:18:55
- 中国电信广东地区崩了无信号 客服回应已在核实处理
2023-06-08 15:39:04
- 消息称小米新能源汽车价格表正讨论定价区间:双版本不同配置,高配或超 35 万元
2023-03-06 12:56:03
- 华为因制裁被传或分拆剥离手机业务? 内部人士回应:可能性不大.
2023-03-05 23:26:41
- OPPO正式发布安第斯智能云,让终端更智能
2023-02-24 16:02:27
- 华为与OPPO签订全球专利交叉许可协议 包括5G蜂窝通信专利
2023-02-24 16:02:26
- 老蛙将推MINI镜头新品:目前未知具体规格 官宣将于12月20日发布
2023-02-24 16:02:26
- 首发全新35mm定制光学系统 努比亚Z50性能同样强悍
2023-02-24 16:02:25
- Redmi K60屏幕细节曝光:全系标配2K护眼柔性直屏+5000mAh大容量电池
2023-02-24 16:02:25
- OPPO Find N2今天发 合金金属折叠屏更轻了
2023-02-24 16:02:24