APP下载

真假人声算法:Google开源可准确辨识不同人声的AI算法,即时辨识多人对话挑战

2018-11-13 16:10

Google本周透过GitHub开源了可即时辨识不同人声及话语的AI算法,在线上解码的准确率已高达92.4%,期望能够抛砖引玉以激发更多类似的研究。

说话者自动分段标记(Speaker Diarization)为语音辨识系统的关键功能,它能够区分一段语音中不同发言者及所说出的话语,但以监督式学习方法来训练这类的系统并不容易,一个健全的自动分段标记模型必须能够连结未曾出现在训练中的发言者及其文字,这通常限制了线上与离线自动分段标记的品质,特别是需要即时产生结果的线上系统。

Google的研究人员则采取全面监督之说话者自动分段标记(Fully Supervised Speaker Diarization)的作法,取名为“无界交错状态递归神经网络”(Unbounded Interleaved-State Recurrent Neural Networks,UIS-RNN),透过更有效率的方式来利用受监督的说话者标签。

此一模型与一般丛集算法最大的不同在于所有的说话者向量都是由共享参数的RNN所建模,再利用交错时间中不同的RNN状态来区分说话者。每个说话者都有自己的RNN实例,借由赋予说话者新的向量来持续更新其RNN状态,当不同的说话者出现时,就会切换RNN实例并更新其状态。

把说话者视作RNN状态就能借由RNN参数了解更多不同说话者及其发言的知识,也能让大量的标签资料发挥所长,反观一般的丛集算法总是与单一语话独立运作,而难以从庞大的标签资料中受益。

该模型能够在多人的对谈中解决“谁在什么时间说了什么话”(who spoke when)的语音辨识挑战,在 NIST SRE 2000 CALLHOME基准测试中的最低错误率只有7.6%,凌驾了采用丛集方法的8.8%,以及采用深度神经网络嵌入方法的9.9%。Google也强调此一错误率是基于线上解码,意谓着它特别适用于各种即时的应用。

相关文章

最新资讯

  • 精心培育27载,一览农高会精彩
    2020-10-22 17:55
  • 拥抱教育信息化2.0,希沃创造真正适合中国教育…
    2020-10-22 17:55
  • 亚太电信开始提供5G,国内五家业者终于全数开台
    2020-10-23 02:47
  • 创业风口来了!回收宝城市合伙人限额招募,仅…
    2020-10-22 17:55
  • 工业“智能化”快车道大揭秘!为什么都选择百…
    2020-10-22 21:53

手机

  • 中华电信 iPhone 12新机首卖会 前百名加赠3,600元优惠券
    2020-10-22 16:47
  • iPhone 12 网络状态之谜 特定情况下显示 5G 实测可能是 4G
    2020-10-22 16:47
  • 远传明日开卖iPhone 12推旧换新折价保证业界最优现折最高$25,900
    2020-10-22 14:47
  • iPhone12 & Pro 开箱与iPhone 11比一比 6.1吋、5.8吋屏幕竟然差不多?Magsafe保护壳安装
    2020-10-22 13:47
  • iPhone 12 Pro 太平洋蓝开箱 5G 网络实测、超广角夜拍大进步
    2020-10-22 12:45

数码

  • ios14新bug问题出现:第三方邮件应用更新后会重置
    2020-10-22 17:51
  • 科大讯飞全球开发者节直播明天开启 这些看点不容错过
    2020-10-22 17:51
  • 2021新iPhone或采用骁龙X60芯 苹果产品路线图曝光
    2020-10-23 01:47
  • 曝华为mate30 Pro E即将发布 搭载麒麟990E处理器
    2020-10-23 01:47
  • 苹果iphone12耗电快吗开5g会更费电吗 iphone12续航时间
    2020-10-23 01:47

科技

  • 坚果R1新猜想5.15致敬鲁迅《狂人日记》
    2018-05-13 22:33
  • JDP推出新一代VR显示屏未来或用于PSVR二代上
    2018-05-13 21:33
  • OLED彻底傻眼 全新OLCD技术超薄变形更省钱
    2018-05-13 22:33
  • 给力 国产全面屏性价比神机喜提安卓8.0:内测招募开启
    2018-05-13 22:33
  • 无语 联发科P10遇上刘海全面屏:这搭配彻底醉了…
    2018-05-13 22:33