APP下载

真假人声算法:Google开源可准确辨识不同人声的AI算法,即时辨识多人对话挑战

2018-11-13 16:10

Google本周透过GitHub开源了可即时辨识不同人声及话语的AI算法,在线上解码的准确率已高达92.4%,期望能够抛砖引玉以激发更多类似的研究。

说话者自动分段标记(Speaker Diarization)为语音辨识系统的关键功能,它能够区分一段语音中不同发言者及所说出的话语,但以监督式学习方法来训练这类的系统并不容易,一个健全的自动分段标记模型必须能够连结未曾出现在训练中的发言者及其文字,这通常限制了线上与离线自动分段标记的品质,特别是需要即时产生结果的线上系统。

Google的研究人员则采取全面监督之说话者自动分段标记(Fully Supervised Speaker Diarization)的作法,取名为“无界交错状态递归神经网络”(Unbounded Interleaved-State Recurrent Neural Networks,UIS-RNN),透过更有效率的方式来利用受监督的说话者标签。

此一模型与一般丛集算法最大的不同在于所有的说话者向量都是由共享参数的RNN所建模,再利用交错时间中不同的RNN状态来区分说话者。每个说话者都有自己的RNN实例,借由赋予说话者新的向量来持续更新其RNN状态,当不同的说话者出现时,就会切换RNN实例并更新其状态。

把说话者视作RNN状态就能借由RNN参数了解更多不同说话者及其发言的知识,也能让大量的标签资料发挥所长,反观一般的丛集算法总是与单一语话独立运作,而难以从庞大的标签资料中受益。

该模型能够在多人的对谈中解决“谁在什么时间说了什么话”(who spoke when)的语音辨识挑战,在 NIST SRE 2000 CALLHOME基准测试中的最低错误率只有7.6%,凌驾了采用丛集方法的8.8%,以及采用深度神经网络嵌入方法的9.9%。Google也强调此一错误率是基于线上解码,意谓着它特别适用于各种即时的应用。

相关文章

最新资讯

  • Nokia推出第一款智慧电视,印度为首发市场
    2019-12-09 17:49
  • BMW与现代汽车遭越南骇客锁定
    2019-12-09 17:49
  • 科普标题:智能驾驶、自动驾驶、无人驾驶,我…
    2019-12-09 15:50
  • 2019 OPPO开发者大会亮点抢先看:“将不会再有…
    2019-12-09 15:50
  • 传Magic Leap销售不佳,第二代还得等好几年
    2019-12-09 15:49

手机

  • 高通公布骁龙 865/765 芯片细节 这些都是明年 Android 新机能用上的特性
    2019-12-09 13:48
  • 高通没放弃屏幕下指纹辨识 新版感应器尺寸大 17 倍 一次能读两根手指
    2019-12-08 15:48
  • Apple 公布 2019 年度最佳 App 与游戏名单 你玩过几款?
    2019-12-06 14:22
  • 三星推出 Galaxy 系列冰雪奇缘 2 配件 手机壳、耳机保护壳陆续上市
    2019-12-06 12:47
  • 可以更新你手上的 S10 啰 三星今日推出 Galaxy S10 系列 Android 10 更新
    2019-12-05 19:52

数码

  • RedmiBook全面屏笔记本将搭载0.1mm超薄扇叶:…
    2019-12-09 17:13
  • 国行Switch京东商城预约数破10万,包装盒曝光
    2019-12-09 17:13
  • XDA主编确认三星Galaxy S11+摄像头外观
    2019-12-08 09:52
  • Redmi小爱音箱将搭载全新声纹引擎
    2019-12-08 08:51
  • vivo X30系列日产量接近10万台,有望实现首家5…
    2019-12-09 14:53

科技

  • 抖音欢迎回家是什么梗出处 评论欢迎回家啥意思出处
    2019-12-09 17:07
  • 2020年鼠年祝福语大全 关于鼠年有关的新年拜年祝福语
    2019-12-09 17:07
  • 看电动飞机如何崛起?
    2018-07-13 01:31
  • 可折叠手机真要普及?除了三星苹果正秘密研发可折叠iPhone
    2018-07-13 01:31
  • 网友后悔买卡死的国产手机了:6.3英寸新iPhone售价3899元
    2018-07-13 01:31