APP下载

Google开发新方法LEAF改进音讯分类任务

消息来源:baojiabao.com 作者: 发布时间:2024-05-15

报价宝综合消息Google开发新方法LEAF改进音讯分类任务

Google重新设计用来处理音讯分类任务的方法,发表了可学习的音讯前端LEAF,用来取代过去预处理音讯的方法梅尔滤波器组(Mel Filterbanks),以更好地处理像是分类鲸鱼叫声等音讯分类任务。

过去几年,语音理解机器学习模型有了巨大的进展,透过从资料中学习参数的能力,该领域已经逐渐从过去复合手刻的系统,转变成为深层神经分类器,用于语音辨识、音乐理解以及动物声音分类等任务。但Google提到,用于音讯分类的深度神经网络跟电脑视觉模型不同,电脑视觉模型可以从原始画素中学习,但是音讯分类深度神经网络很少使用原始音讯波型训练。

音讯分类深度神经网络仰赖梅尔滤波器组预处理资料,这些滤波器使用经特别设计的梅尔缩放频谱,目的是要克隆人类听觉回应的某些部分,虽然对梅尔滤波器组建模,过去的机器学习应用都很成功,使用固定梅尔缩放和对数压缩,在一般情况也都效果良好,但是Google认为,没有办法保证这些也可以被良好应用到其他的任务上。

在与人类感知相对应的应用领域,像是语音辨识和音乐理解,目前标准梅尔滤波器组都提供了良好的归纳偏差,但是这些偏差可能对不需要模仿人耳的领域,像是辨识鲸鱼叫声这类的任务造成负面影响,所以为了获得最佳的效能,需要为特定任务量身订做梅尔滤波器组,但这是一个繁琐的过程,不只需要专家知识,还需要许多迭代工作,因此在多数的音讯分类任务,开发者还是偏好使用标准的梅尔滤波器组,即便可能无法产生最佳的结果。

为了解决这个问题,Google提出梅尔滤波器组的替代方法LEarnable Audio Frontend(LEAF),这是一个神经网络,可以初始化逼近梅尔滤波器组,并且与任何音讯分类器一起训练,以适应特定任务。

Google将LEAF应用在各种音讯分类任务上,包括语音辨识、说话者辨识、乐器辨识和鸟声辨识,LEAF的平均效能比起梅尔滤波器组,以及其他可学习前端,如Time-Domain Filterbanks、SincNet和Wavegram都还要好,在不同的任务上,LEAF的平均准确率达76.9%,而梅尔滤波器组的平均准确率则为73.9%。Google使用TensorFlow 2实作LEAF,现在已经在GitHub储存库开源。

2021-03-16 23:48:00

相关文章