真假人声算法:Google开源可准确辨识不同人声的AI算法,即时辨识多人对话挑战

2019-02-27 09:50

导读: 这个模型可以解决多人对谈中的大难题,“谁在什么时间说了什么话”的语音辨识挑战,在NISTSRE2000CALLHOME基准测试中的最低错误率只有7.6%

Google本周透过GitHub开源了可即时辨识不同人声及话语的AI算法,在线上解码的准确率已高达92.4%,期望能够抛砖引玉以激发更多类似的研究。

说话者自动分段标记(Speaker Diarization)为语音辨识系统的关键功能,它能够区分一段语音中不同发言者及所说出的话语,但以监督式学习方法来训练这类的系统并不容易,一个健全的自动分段标记模型必须能够连结未曾出现在训练中的发言者及其文字,这通常限制了线上与离线自动分段标记的品质,特别是需要即时产生结果的线上系统。

Google的研究人员则采取全面监督之说话者自动分段标记(Fully Supervised Speaker Diarization)的作法,取名为“无界交错状态递归神经网络”(Unbounded Interleaved-State Recurrent Neural Networks,UIS-RNN),透过更有效率的方式来利用受监督的说话者标签。

此一模型与一般丛集算法最大的不同在于所有的说话者向量都是由共享参数的RNN所建模,再利用交错时间中不同的RNN状态来区分说话者。每个说话者都有自己的RNN实例,借由赋予说话者新的向量来持续更新其RNN状态,当不同的说话者出现时,就会切换RNN实例并更新其状态。

把说话者视作RNN状态就能借由RNN参数了解更多不同说话者及其发言的知识,也能让大量的标签资料发挥所长,反观一般的丛集算法总是与单一语话独立运作,而难以从庞大的标签资料中受益。

该模型能够在多人的对谈中解决“谁在什么时间说了什么话”(who spoke when)的语音辨识挑战,在 NIST SRE 2000 CALLHOME基准测试中的最低错误率只有7.6%,凌驾了采用丛集方法的8.8%,以及采用深度神经网络嵌入方法的9.9%。Google也强调此一错误率是基于线上解码,意谓着它特别适用于各种即时的应用。