学界|只对你有感觉:谷歌用声纹识别实现定向人声分离
消息来源:baojiabao.com 作者: 发布时间:2024-04-26
机器之心报道
作者:邱陆陆
近日,谷歌科学家 Quan Wang 等在 arXiv 上发布了题名为 VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking 的一篇论文,介绍了团队在人声分离领域的最新进展,利用声纹识别技术,实现定向人声分离。
图 1:论文标题及作者截图
“语音识别”已经跟随着手机语音助手和智能音箱的普及变成了普通人日常生活的一部分,然而尽管包括谷歌、微软在内的诸多公司纷纷宣称其模型可以在标准数据集上“词错率降低到 6% 以下”、“水平超过普通人”乃至“水平超过专业速记员”,但是真实的场景里有很多标准数据集上不会出现的情况:远场问题、鸡尾酒会问题、中英文夹杂问题等等,这些情况的存在导致现实生活中,语音识别模型的效果还远远达不到人类的期望,亟待解决的问题还有很多。
人声分离是鸡尾酒会问题中一个比较难的分支,特指那些所有信号由同一麦克风收录,因此无法通过多个不同方向的麦克风解决的鸡尾酒会问题。人声分离问题的设定也有很多种,简而言之,是从有多个说话人同时发声的一段音频中,将不同人的声音区分开,以便对其中的某个(或每个)语音内容进行识别。现有的人声分离技术面临着三大挑战:
首先,现有人声分离算法几乎全部假设说话人数量已知,而在真实生活里,输入音频中同时说话的人的数量是未知的。
其次,在训练人声分离系统的过程中,如何保证置换不变性(Permutation Invariant),即确保时间轴上每一个点的说话者身份都与上一个点一致,对于经典的人声分离算法来说,也是一大难点。
最后,即使将不同说话者的声音成功分开,输出为多个人声频道,究竟哪一个频道是“有用的”目标频道,仍然需要设计额外的算法进行挑选。常用的做法是挑选音量最大的频道,但是在多种实际场景下,例如干扰者与目标说话者同样接近麦克风时,这种方法就有较大概率会失效。
VoiceFilter 用了“四两拨千斤”的一招处理了人声分离问题,他们请来了一位强有力的“外援”:声纹识别编码器(图 2 红色部分)。
VoiceFilter 网络的输入,除了含有噪声的人声时频谱(spectrogram)之外,还有一段代表目标说话者的嵌入码(embedding,又称 d-vector)。这段嵌入码是由声纹识别编码器从一段来自目标说话者的无噪声参考音频编码而成的。系统最终会根据这段嵌入码,定向地分离出有噪声时频谱中目标说话者的声音,效果如下。视频中分别展示了两段含有噪声的输入、目标说话者参考音频、以及分离后的效果。
图 2:谷歌 VoiceFilter 的系统架构图。
VoiceFilter 系统分别在公开数据集 LibriSpeech 和 VCTK 上进行了试验。将训练好的 VoiceFilter 网络同时作用于多人环境与单人环境的测试集。在固定语音识别器不变的情况下,VoiceFilter 将多人环境下的语音识别词错率(Word Error Rate)从 55.9% 降至 23.4%,提升率超过 50%!在单人环境下,VoiceFilter 的词错率也维持在了正常波动范围内:从 10.9% 变化到了 11.1%。而在 VCTK 数据集上,VoiceFilter 则同时降低了多人环境与单人环境下的词错率。
图 3:实验结果
此外,文中还给出了人声分离领域常用的指标 SDR(source-to-distortion ratio)。SDR 衡量的是分离后的信号中,包含的目标信号能量与噪声能量之比,以分贝为单位,越高越好。相同的神经网络架构下,VoiceFilter 的 SDR 能够达到 17.9 分贝,高于置换不变性训练方法下的 17.2 分贝。
声纹识别是一项已经发展非常成熟的技术,在 Pixel 手机与 Google Home 上,均有声纹识别系统的部署。这些设备中都有现成的目标说话者嵌入码(d-vector),VoiceFilter 系统部署到这类产品中时,不需要用户进行任何额外的交互。换言之,VoiceFilter 可以在没有为用户带来任何额外使用成本的前提下,实现无论用户的语音命令来自何种环境,被几个麦克风收音,都能在维持单人环境词错率不变的情况下,降低多人环境词错率。
原文链接:https://arxiv.org/abs/1810.04826
更多音频样本:https://google.github.io/speaker-id/publications/VoiceFilter
本文为机器之心报道,
转载请联系本公众号获得授权
。?------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:
content
@jiqizhixin.com广告 & 商务合作:bd@jiqizhixin.com
相关文章
- 中兴受美国制裁事件 被罚了20亿美元过程事件始末 中兴被制裁后公司现状
2023-11-02 22:12:46
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因
2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓
2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?
2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元
2023-02-17 18:58:09
- 科大讯飞同传同声翻译软件造假 浮夸不能只罚酒三杯
2023-02-17 18:46:15
- 华为mate20pro系列手机首发上市日期价格,屏幕和电池参数配置对比
2023-02-17 18:42:49
- 小米MAX4手机上市日期首发价格 骁龙720打造大屏标准
2023-02-17 18:37:22
- 武汉弘芯遣散!结局是总投资1280亿项目烂尾 光刻机抵押换钱
2023-02-16 15:53:18
- 谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠
2023-02-16 13:34:45
- 巴斯夫将裁员6000人 众化工巨头裁员潮再度引发关注
2023-02-13 16:49:06
- 人手不足 韵达快递客服回应大量包裹派送异常没有收到
2023-02-07 15:25:20
- 资本微念与李子柒销声匿迹谁赢? 微念公司退出子柒文化股东
2023-02-02 09:24:38
- 三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办
2023-01-24 10:10:02
- 华为Mate50 RS保时捷最新款顶级手机2022多少钱?1.2万元售价外观图片吊打iPhone14
2023-01-06 20:27:09
- 芯片常见的CPU芯片封装方式 QFP和QFN封装的区别?
2022-12-02 17:25:17
- 华为暂缓招聘停止社招了吗?官方回应来了
2022-11-19 11:53:50
- 热血江湖手游:长枪铁甲 刚猛热血 正派枪客全攻略技能介绍大全
2022-11-16 16:59:09
- 东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?
2022-10-22 15:21:55
- 苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次
2022-10-03 22:13:45