Google发表云端文字转语音服务,人声发音更好、更自然

2018-03-28 20:31

导读: 开发者现在可以将云端文字转语音服务用在语音回应系统,像是呼叫中心(IVRs),也能在电视、汽车或是机器人等物联网装置,建置语音回应功能,或是在以文字为主的媒体上,将文章与书转成音讯。
图片来源: 

Google

Google的文字转语音(Text-To-Speech)功能原本使用在Google助理或是Google Map等服务上,现在Google推出云端文字转语音服务,开发者也可以在自己的应用程序上添加语音功能了。另外,Google还表示,云端文字转语音使用了高传真人声合成技术WaveNet,让电脑发音更像真正的人声。

Google表示,不少开发者向他们反应,也想要将文字转语音的功能,使用在自己的应用上,因此他们把这项功能放到Google云端平台,推出云端文字转语音服务。

开发者现在可以将云端文字转语音服务用在语音回应系统,像是呼叫中心(IVRs),也能在电视、汽车或是机器人等物联网装置,建置语音回应功能,或是在以文字为主的媒体上,将文章与书转成音讯。

Google云端文字转语音使用了DeepMind所创建的声音生成模型WaveNet,这个高传真的人声合成技术,可以让电脑合成的语音更自然。

WaveNet是2016年DeepMind发表的技术,但是到了今日已有很大的进步。以速度来说,WaveNet现在Google的云端TPU基础设备上运作,比起初代,产生原始波形的速度快了一千倍,而且产生1秒钟的语音只需要50毫秒。

除了速度提高千倍,产生语音的拟真度也得到了长足的提升,WaveNet能够建立每秒24,000样本的高传真波形,且采样分辨率从原本8位元提升到了16位元,因此所得到的人声语音品质更好更自然。

Google表示,比起市面上的电脑语音,人们对WaveNet所合成的语音有更高的接受度。而在语音测试中,WaveNet合成的新美国英语语音,平均得分4.1,比起标准声音好20%,也与真实人类语音差距减少70%

云端文字转语音功能现在支援32种声音12种语言,开发者可以客制化音调、语速以及音量增益,并且能转存为MP3或是WAV等各式音讯格式。

相关文章