APP下载

真假人声算法:Google开源可准确辨识不同人声的AI算法,即时辨识多人对话挑战

2018-11-13 16:10

Google本周透过GitHub开源了可即时辨识不同人声及话语的AI算法,在线上解码的准确率已高达92.4%,期望能够抛砖引玉以激发更多类似的研究。

说话者自动分段标记(Speaker Diarization)为语音辨识系统的关键功能,它能够区分一段语音中不同发言者及所说出的话语,但以监督式学习方法来训练这类的系统并不容易,一个健全的自动分段标记模型必须能够连结未曾出现在训练中的发言者及其文字,这通常限制了线上与离线自动分段标记的品质,特别是需要即时产生结果的线上系统。

Google的研究人员则采取全面监督之说话者自动分段标记(Fully Supervised Speaker Diarization)的作法,取名为“无界交错状态递归神经网络”(Unbounded Interleaved-State Recurrent Neural Networks,UIS-RNN),透过更有效率的方式来利用受监督的说话者标签。

此一模型与一般丛集算法最大的不同在于所有的说话者向量都是由共享参数的RNN所建模,再利用交错时间中不同的RNN状态来区分说话者。每个说话者都有自己的RNN实例,借由赋予说话者新的向量来持续更新其RNN状态,当不同的说话者出现时,就会切换RNN实例并更新其状态。

把说话者视作RNN状态就能借由RNN参数了解更多不同说话者及其发言的知识,也能让大量的标签资料发挥所长,反观一般的丛集算法总是与单一语话独立运作,而难以从庞大的标签资料中受益。

该模型能够在多人的对谈中解决“谁在什么时间说了什么话”(who spoke when)的语音辨识挑战,在 NIST SRE 2000 CALLHOME基准测试中的最低错误率只有7.6%,凌驾了采用丛集方法的8.8%,以及采用深度神经网络嵌入方法的9.9%。Google也强调此一错误率是基于线上解码,意谓着它特别适用于各种即时的应用。

相关文章

最新资讯

  • 华为售后开启优惠活动:电池换新 79 元起,保…
    2021-03-16 15:52
  • 北京市一零一中学原副校长严寅贤出席让在线教…
    2021-03-16 15:51
  • 微软释出Exchange Server漏洞的一键缓解工具
    2021-03-16 15:48
  • 丰田章男罕有批评 Apple:卖车没有“科技人”想得这么简单!
    2021-03-16 15:48
  • Google Chrome修补今年第三个遭开采的零时差漏洞
    2021-03-16 14:48

手机

  • 骁龙888终端演示毫米波等创新技术,给5G再添一把火
    2021-03-16 16:47
  • 骁龙888第三代Elite Gaming有多强?提升手机游戏综合体验的利器
    2021-03-16 16:47
  • 高通潜心研发5G毫米波,期待冰雪运动和你来一场高科技邂逅
    2021-03-15 16:46
  • 高通挑战“不可能”:专注毫米波研发能给5G市场带来什么?
    2021-03-12 12:46
  • 5G技术加持,欢太将全面覆盖各行业
    2021-03-12 11:46

数码

  • iqooneo5和小米10pro哪个好区别在哪 参数对比性能评测
    2021-03-16 16:49
  • 小米10s和vivos9哪个好区别在哪 参数配置性能对比
    2021-03-16 16:49
  • 复兴号高铁座位灯颜色什么意思 圆点状指示灯颜色意思
    2021-03-16 14:46
  • 黑鲨 4/Pro 发布会官宣:3 月 23 日举行,“突…
    2021-03-16 13:55
  • 蓝牙耳机什么牌子好性价比高 最新蓝牙耳机排行榜
    2021-03-16 14:46

科技

  • 抖音54万R8是什么梗怎么回事 54万买奥迪R8事件始末
    2021-03-16 16:48
  • 2021天猫春夏新风尚活动时间及方式规则介绍
    2021-03-16 16:48
  • 快讯SpaceX暖场小片的变革和BFR厂房的选址
    2018-04-15 00:32
  • 轻巧简约 小怪兽料理机开启时尚健康生活
    2018-04-15 00:32
  • 红米note5的用户评价怎么样 大家的使用体验还好吗?
    2018-04-15 00:32