真假人声算法:Google开源可准确辨识不同人声的AI算法,即时辨识多人对话挑战
消息来源:baojiabao.com 作者: 发布时间:2024-12-04
Google本周透过GitHub开源了可即时辨识不同人声及话语的AI算法,在线上解码的准确率已高达92.4%,期望能够抛砖引玉以激发更多类似的研究。
说话者自动分段标记(Speaker Diarization)为语音辨识系统的关键功能,它能够区分一段语音中不同发言者及所说出的话语,但以监督式学习方法来训练这类的系统并不容易,一个健全的自动分段标记模型必须能够连结未曾出现在训练中的发言者及其文字,这通常限制了线上与离线自动分段标记的品质,特别是需要即时产生结果的线上系统。
Google的研究人员则采取全面监督之说话者自动分段标记(Fully Supervised Speaker Diarization)的作法,取名为“无界交错状态递归神经网络”(Unbounded Interleaved-State Recurrent Neural Networks,UIS-RNN),透过更有效率的方式来利用受监督的说话者标签。
此一模型与一般丛集算法最大的不同在于所有的说话者向量都是由共享参数的RNN所建模,再利用交错时间中不同的RNN状态来区分说话者。每个说话者都有自己的RNN实例,借由赋予说话者新的向量来持续更新其RNN状态,当不同的说话者出现时,就会切换RNN实例并更新其状态。
把说话者视作RNN状态就能借由RNN参数了解更多不同说话者及其发言的知识,也能让大量的标签资料发挥所长,反观一般的丛集算法总是与单一语话独立运作,而难以从庞大的标签资料中受益。
该模型能够在多人的对谈中解决“谁在什么时间说了什么话”(who spoke when)的语音辨识挑战,在 NIST SRE 2000 CALLHOME基准测试中的最低错误率只有7.6%,凌驾了采用丛集方法的8.8%,以及采用深度神经网络嵌入方法的9.9%。Google也强调此一错误率是基于线上解码,意谓着它特别适用于各种即时的应用。
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11