APP下载

脸书最新TTS系统可只用CPU即时生成语音

消息来源:baojiabao.com 作者: 发布时间:2024-05-19

报价宝综合消息脸书最新TTS系统可只用CPU即时生成语音

脸书部署了最新的文字转语音(TTS)系统,除了能维持既有的音讯品质之外,其语音生成速度比基准快了160倍,而且更特别的是,整个服务都是使用一般的CPU进行运算,不需要用到GPU或是专用的硬件。

脸书提到,为了产生相似人的声音,光一秒钟的语音,文字转语音系统可能就需要输出24,000个样本,有时候甚至需要更多,由于新兴的模型,其大小和复杂性越来越高,因此也需要更大量的运算能力,而这些运算通常会放到GPU或是专用硬件上来加速运算。

而脸书新的文字转语音系统则经过模型最佳化,利用一般的CPU进行运算,就能即时产生语音,脸书提到,这个系统具有高灵活性,可创建和扩展更人性化和更具表达性的语音,并能在应用程序中呈现更好的语音效果,目前这个新系统被应用在脸书的视讯通话装置Portal上,可以让其上的应用程序提供阅读和虚拟实境等语音应用。

这个系统主要由4个主要部分组成,第一部分是将输入的文字转换成语言功能序列,输出像是人类语言中可区别意义的最小单位音位(Phoneme)和句子类型,第二部分是可用来预测节奏和旋律,创建自然语音表现力的韵律模型(Prosody Model),第三是生成语音模型频谱表示的声学模型,而最后则是可根据韵律和频谱特征,产生24 kHz语音波形的神经声码器(Vocoder)。

脸书提到,神经声码器的特性需要按顺序生成样本,而这对于即时合成语音来说是一大障碍。在脸书一开始的实验,产生音讯的速度约是80 RTF(Real-Time Factor ),也就是单个CPU核心产生1秒钟的音讯需要花费80秒,但是要在Portal这类的系统上提供即时语音服务,则必须要将速度提升到1 RTF。

为此,脸书对模型进行了一连串的最佳化,包括使用PyTorch JIT,将原先训练导向的PyTorch设定,转为预测最佳化环境,并使用经编译的运算子以及各类张量层级的最佳化,榨出额外的运算加速,而且脸书还透过训练模型,达到非结构化模型稀疏化,降低预测运算的复杂度,除了4%非零模型参数,脸书实现了96%的非结构化模型稀疏度,这代表模型在不降低音讯品质的情况下,速度运算将提高5倍。

另外,脸书还应用了区块稀疏化,将非零参数限制在固定大小的区块,并储存在连续的内存区块中,因此能够进一步简化模型,而这将会使内存以紧凑的布局储存参数资料,并且花费最少的间接寻址时间,大幅提高内存带宽利用率和快取利用率。脸书也将运算负载繁重的运算子,分配到多个CPU核心同时进行处理,进一步提高速度。

最终的文字转语音系统运用4个CPU核心运算可达0.5 RTF,也就是合成速度是一开始基准的160倍,脸书提到,由于语音助理的应用越来越普及,而且要了让语音助理与人的互动更加自然,需要应用区域方言个人化系统,因此接下来脸书会借助新的文字转语音系统的灵活性,在语音产品组合添加更多语言和口音,并让更小的装置也能运作这个系统。

2020-05-19 11:51:00

相关文章