Google开发新方法LEAF改进音讯分类任务最新消息

Google开发新方法LEAF改进音讯分类任务

消息来源:baojiabao.com 作者: 发布时间：2024-05-15

报价宝综合消息Google开发新方法LEAF改进音讯分类任务

Google重新设计用来处理音讯分类任务的方法，发表了可学习的音讯前端LEAF，用来取代过去预处理音讯的方法梅尔滤波器组（Mel Filterbanks），以更好地处理像是分类鲸鱼叫声等音讯分类任务。

过去几年，语音理解机器学习模型有了巨大的进展，透过从资料中学习参数的能力，该领域已经逐渐从过去复合手刻的系统，转变成为深层神经分类器，用于语音辨识、音乐理解以及动物声音分类等任务。但Google提到，用于音讯分类的深度神经网络跟电脑视觉模型不同，电脑视觉模型可以从原始画素中学习，但是音讯分类深度神经网络很少使用原始音讯波型训练。

音讯分类深度神经网络仰赖梅尔滤波器组预处理资料，这些滤波器使用经特别设计的梅尔缩放频谱，目的是要克隆人类听觉回应的某些部分，虽然对梅尔滤波器组建模，过去的机器学习应用都很成功，使用固定梅尔缩放和对数压缩，在一般情况也都效果良好，但是Google认为，没有办法保证这些也可以被良好应用到其他的任务上。

在与人类感知相对应的应用领域，像是语音辨识和音乐理解，目前标准梅尔滤波器组都提供了良好的归纳偏差，但是这些偏差可能对不需要模仿人耳的领域，像是辨识鲸鱼叫声这类的任务造成负面影响，所以为了获得最佳的效能，需要为特定任务量身订做梅尔滤波器组，但这是一个繁琐的过程，不只需要专家知识，还需要许多迭代工作，因此在多数的音讯分类任务，开发者还是偏好使用标准的梅尔滤波器组，即便可能无法产生最佳的结果。

为了解决这个问题，Google提出梅尔滤波器组的替代方法LEarnable Audio Frontend（LEAF），这是一个神经网络，可以初始化逼近梅尔滤波器组，并且与任何音讯分类器一起训练，以适应特定任务。

Google将LEAF应用在各种音讯分类任务上，包括语音辨识、说话者辨识、乐器辨识和鸟声辨识，LEAF的平均效能比起梅尔滤波器组，以及其他可学习前端，如Time-Domain Filterbanks、SincNet和Wavegram都还要好，在不同的任务上，LEAF的平均准确率达76.9％，而梅尔滤波器组的平均准确率则为73.9％。Google使用TensorFlow 2实作LEAF，现在已经在GitHub储存库开源。

2021-03-16 23:48:00

Google开发新方法LEAF改进音讯分类任务

品牌选车