Amazon新一代文字转语音模型，要让Alexa说话更有风格最新消息

Amazon新一代文字转语音模型，要让Alexa说话更有风格

消息来源:baojiabao.com 作者: 发布时间：2024-05-14

报价宝综合消息Amazon新一代文字转语音模型，要让Alexa说话更有风格

图片来源:

Amazon

Amazon近日发表了最新的文字转语音系统，透过生成神经网络，经过几个小时的录音档训练，就能学会新闻播报员的说话风格，这项进展是为了Alexa和其他语音服务铺路，期望在不同的对话内容，语音服务能用不同的讲话风格，增加使用者体验。

当人类说话时，会根据不同内容采用不同的说话风格，举例来说，播报新闻头条的主播和讲床边故事给小孩听的父母，会用非常不一样的说话风格，来传达自己的意思，因此，Amazon认为，对于使用者而言，合成的语音若能够更像真人，有讲话风格的转换，将能带给使用者更好的使用体验。

Amazon开发的神经文字转语音（Neural text-to-speech, NTTS）方法，利用增加大量现有的新闻广播录音档，系统可以在经过短短几小时的录音档训练后，建立新闻领域的声音，过去用连接式合成方法的技术，是不可能达到这样的成果。

Amazon的NTTS系统包含两个元件，一个是将音位（phonemes）序列转换为声谱序列的神经网络，音位为语言的最基本单位，另外一个元件是将声谱序列转换为连续声音讯号的语音合成器。第一个神经网络是Sequence2sequence的模型，也就是说该模型不仅会根据输入计算输出，还会考虑输出序列的位置，输出的声谱是用梅尔声谱（mel-spectrograms）的方式，透过频率来强调人脑处理说话的声音特征。

不过，当大量资料集训练用于建立通用的连接式合成时，这种Sequence2sequence的方法可以制造出高品质的声音，但是，这些数据集缺乏代表特定讲话风格的独特语音特征，即使产生的语音品质高，却在多样化的表达呈现上有所限制，像是音调，停顿和节奏。另一方面，若找来朗读人员建立相似大小的资料集，需要数十个小时的音档才能训练该模型，不但耗时，成本也十分昂贵。

Amazon发现可以透过调整Sequence2sequence的模型，利用大量风格中立的资料来训练特殊风格语音合成器，Amazon不只用音位序列和梅尔声谱，来训练该模型，还用了风格编译器，来辨识训练样本的说话风格，透过这个方法，Amazon就能够用风格中立的语音资料，在短短的几小时内，训练出高品质且多样化风格的模型。

最后，模型输出的成果需经过语音合成器，该语音合成器是将梅尔声谱转换为声波形式的神经网络，为了能够使其成为通用的网络，语音合成器必须能够模拟任何语音、说话者和说话风格的发音，因此，该系统采用了任何说话者的梅尔声谱。

2018-11-20 11:34:00