APP下载

Google发布端到端语音翻译模型,还能保留原本的声音特征

消息来源:baojiabao.com 作者: 发布时间:2024-05-19

报价宝综合消息Google发布端到端语音翻译模型,还能保留原本的声音特征
图片来源: 

Google

Google发布能够直接将一种语言的语音,转换为另一种语言语音的模型Translatotron,透过单一的注意力Seq2seq网络来直接翻译语音,中间不需要借助文字资料的转换,由于避开了分阶段式的转换步骤,因此,该模型具有较高的效能,且降低了语音辨识和翻译过程中的错误风险,直接将原本的语言转换为目标语言的语言,也能够更好地处理语句中不需要翻译的词句,像是名称或是特定名词。

语音之间的翻译系统的目的,是为了帮助讲不同语言的人沟通,这类的翻译系统通常会包含三个不同的技术,分别为自动语音辨识、机器翻译和文字转语音生成技术,将一个语言的语音转为文字后,透过机器翻译转换成另一个语言,再用语音生成技术创造目标语言的语音,Google AI研究院从2016年开始打造Translatotron模型,该模型是端到端的语音翻译模型,研究结果发现,直接翻译语音的方式,比起过去分段翻译的方式更为有效。

Translatotron模型是透过Seq2seq网络,输入资料为原本语言的声谱图(spectrograms),产生翻译成目标语言内容的声谱图,另外Translatotron模型还加入了两个分别训练过的网络:将输出声谱图转换为时域波形的神经声码器(vocoder)、在生成翻译语音时用来维持原始声音特征的编码器,使得翻译语音听起来更自然,在训练的过程中,生成目标语言的声图谱时,Seq2seq模型利用多任务目标学习法,同时预测来源和目标文本,不过,过程中没有任何中间的文字当作参考资料。

2019-05-16 18:12:00

相关文章