APP下载

Amazon新一代文字转语音模型,要让Alexa说话更有风格

消息来源:baojiabao.com 作者: 发布时间:2024-05-14

报价宝综合消息Amazon新一代文字转语音模型,要让Alexa说话更有风格
图片来源: 

Amazon

Amazon近日发表了最新的文字转语音系统,透过生成神经网络,经过几个小时的录音档训练,就能学会新闻播报员的说话风格,这项进展是为了Alexa和其他语音服务铺路,期望在不同的对话内容,语音服务能用不同的讲话风格,增加使用者体验。

当人类说话时,会根据不同内容采用不同的说话风格,举例来说,播报新闻头条的主播和讲床边故事给小孩听的父母,会用非常不一样的说话风格,来传达自己的意思,因此,Amazon认为,对于使用者而言,合成的语音若能够更像真人,有讲话风格的转换,将能带给使用者更好的使用体验。

Amazon开发的神经文字转语音(Neural text-to-speech, NTTS)方法,利用增加大量现有的新闻广播录音档,系统可以在经过短短几小时的录音档训练后,建立新闻领域的声音,过去用连接式合成方法的技术,是不可能达到这样的成果。

Amazon的NTTS系统包含两个元件,一个是将音位(phonemes)序列转换为声谱序列的神经网络,音位为语言的最基本单位,另外一个元件是将声谱序列转换为连续声音讯号的语音合成器。第一个神经网络是Sequence2sequence的模型,也就是说该模型不仅会根据输入计算输出,还会考虑输出序列的位置,输出的声谱是用梅尔声谱(mel-spectrograms)的方式,透过频率来强调人脑处理说话的声音特征。

不过,当大量资料集训练用于建立通用的连接式合成时,这种Sequence2sequence的方法可以制造出高品质的声音,但是,这些数据集缺乏代表特定讲话风格的独特语音特征,即使产生的语音品质高,却在多样化的表达呈现上有所限制,像是音调,停顿和节奏。另一方面,若找来朗读人员建立相似大小的资料集,需要数十个小时的音档才能训练该模型,不但耗时,成本也十分昂贵。

Amazon发现可以透过调整Sequence2sequence的模型,利用大量风格中立的资料来训练特殊风格语音合成器,Amazon不只用音位序列和梅尔声谱,来训练该模型,还用了风格编译器,来辨识训练样本的说话风格,透过这个方法,Amazon就能够用风格中立的语音资料,在短短的几小时内,训练出高品质且多样化风格的模型。

最后,模型输出的成果需经过语音合成器,该语音合成器是将梅尔声谱转换为声波形式的神经网络,为了能够使其成为通用的网络,语音合成器必须能够模拟任何语音、说话者和说话风格的发音,因此,该系统采用了任何说话者的梅尔声谱。

2018-11-20 11:34:00

相关文章