脸书最新TTS系统可只用CPU即时生成语音最新消息

脸书最新TTS系统可只用CPU即时生成语音

消息来源:baojiabao.com 作者: 发布时间：2024-05-19

报价宝综合消息脸书最新TTS系统可只用CPU即时生成语音

脸书部署了最新的文字转语音（TTS）系统，除了能维持既有的音讯品质之外，其语音生成速度比基准快了160倍，而且更特别的是，整个服务都是使用一般的CPU进行运算，不需要用到GPU或是专用的硬件。

脸书提到，为了产生相似人的声音，光一秒钟的语音，文字转语音系统可能就需要输出24,000个样本，有时候甚至需要更多，由于新兴的模型，其大小和复杂性越来越高，因此也需要更大量的运算能力，而这些运算通常会放到GPU或是专用硬件上来加速运算。

而脸书新的文字转语音系统则经过模型最佳化，利用一般的CPU进行运算，就能即时产生语音，脸书提到，这个系统具有高灵活性，可创建和扩展更人性化和更具表达性的语音，并能在应用程序中呈现更好的语音效果，目前这个新系统被应用在脸书的视讯通话装置Portal上，可以让其上的应用程序提供阅读和虚拟实境等语音应用。

这个系统主要由4个主要部分组成，第一部分是将输入的文字转换成语言功能序列，输出像是人类语言中可区别意义的最小单位音位（Phoneme）和句子类型，第二部分是可用来预测节奏和旋律，创建自然语音表现力的韵律模型（Prosody Model），第三是生成语音模型频谱表示的声学模型，而最后则是可根据韵律和频谱特征，产生24 kHz语音波形的神经声码器（Vocoder）。

脸书提到，神经声码器的特性需要按顺序生成样本，而这对于即时合成语音来说是一大障碍。在脸书一开始的实验，产生音讯的速度约是80 RTF（Real-Time Factor ），也就是单个CPU核心产生1秒钟的音讯需要花费80秒，但是要在Portal这类的系统上提供即时语音服务，则必须要将速度提升到1 RTF。

为此，脸书对模型进行了一连串的最佳化，包括使用PyTorch JIT，将原先训练导向的PyTorch设定，转为预测最佳化环境，并使用经编译的运算子以及各类张量层级的最佳化，榨出额外的运算加速，而且脸书还透过训练模型，达到非结构化模型稀疏化，降低预测运算的复杂度，除了4％非零模型参数，脸书实现了96％的非结构化模型稀疏度，这代表模型在不降低音讯品质的情况下，速度运算将提高5倍。

另外，脸书还应用了区块稀疏化，将非零参数限制在固定大小的区块，并储存在连续的内存区块中，因此能够进一步简化模型，而这将会使内存以紧凑的布局储存参数资料，并且花费最少的间接寻址时间，大幅提高内存带宽利用率和快取利用率。脸书也将运算负载繁重的运算子，分配到多个CPU核心同时进行处理，进一步提高速度。

最终的文字转语音系统运用4个CPU核心运算可达0.5 RTF，也就是合成速度是一开始基准的160倍，脸书提到，由于语音助理的应用越来越普及，而且要了让语音助理与人的互动更加自然，需要应用区域方言个人化系统，因此接下来脸书会借助新的文字转语音系统的灵活性，在语音产品组合添加更多语言和口音，并让更小的装置也能运作这个系统。

2020-05-19 11:51:00

脸书最新TTS系统可只用CPU即时生成语音

品牌选车