APP下载

Google发表二代文字转语音技术,让AI讲话不再有机械腔、自然程度媲美人声

消息来源:baojiabao.com 作者: 发布时间:2026-04-30

报价宝综合消息Google发表二代文字转语音技术,让AI讲话不再有机械腔、自然程度媲美人声
图片来源: 

cc by A Health Blog/Flickr

Google于本周二(12/19)揭露新一代文字转语音(Text-To-Speech,TTS)系统Tacotron 2,结合原版Tacotron和音频生成模型WaveNet,透过神经网络架构来转换文字为语音。同时,Google也释出Tacotron 2所产生的音频范本。

新版Tacotron系统是由周期性的序列到序列(Sequence-To-Sequence)特征预测网络模型所组成,并透过序列到序列模型,来对应字母序列和音频特征序列,让文字转为语音。

Tacotron 2模型架构图,图片下方为描述序列到序列模型对应字母序列和音频特征序列。(图片来源/Google)

而Google使用语音范例和相对应的文字文本,取代复杂的语言和声音特征,并透过神经网络来训练文字转语音系统。

Google在官方部落格表示,Tacotron系统的功能不仅可以捕捉单词的发音,也能捕捉各种真人语音的细节,如音量、语速和语调等。最后,由类似WaveNet的架构来转换为24K赫兹的音频。

另外,Google也请真人来为Tacotron 2系统所产生的音频评分,结果Tacotron 2系统的音频与专业真人录音的自然程度相当。

不过,Google也表示,Tacotron 2系统仍有许多挑战,例如,Tacotron 2难以发出复杂发音的单词、Tacotron 2还无法即时产生音频、研究人员目前还无法控制Tacotron 2产生的音频的语调情绪等。

 

2018-01-09 04:25:00

相关文章