APP下载

AWS利用唤醒词语音资料过滤背景音,使Alexa辨识错误率降低15%

消息来源:baojiabao.com 作者: 发布时间:2024-05-20

报价宝综合消息AWS利用唤醒词语音资料过滤背景音,使Alexa辨识错误率降低15%
图片来源: 

AWS

AWS发布一项提升Alexa语音辨识率的技术,透过唤醒词声音快照,并将接随后的语音与之比对,接收到的语音若与唤醒词吻合,则将该语音视为Alexa要接收的语句,若不相符,则视为背景噪音。

与其额外训练另一个神经网络,来区别用户的声音和背景噪音,AWS将唤醒词比对机制整合至现有的标准自动语音辨识系统中,接着,将整个模型进行训练,来辨识系统接收到的语音,在实验中,这项方法能够将语音辨识错误率减少15%。

AWS如何实现这项技术?首先,AWS团队建立了2种不同的神经网络架构,2种网络架构都是Seq2seq的变化版,加入了注意力(attention)机制,也就是保留了输入序列的中间输出结果,训练一个模型来针对这些输入进行选择性的学习,该网络架构都是encoder-decoder框架,编译器会将语音输入资料整理成固定长度的向量序列,通常向量会比原本输入资料更小,而解码器则会将该向量转换为输出,整个网络是一起训练的,因此,编译器可以学习如何产生适合解码器任务的总结向量。

最后,再透过注意力机制来告诉解码器在生成输出结果时,要注意编译器产生的向量中哪一个元素,在Seq2seq的模型中,注意力机制的决定通常都是根据现有编译和解码器网络的状态。

AWS对于基本的网络模型做了一些调整,在注意力机制中加入了一个输入资料,除了从现有的编译器和解码网络中接收资料,AWS调整过的注意力机制还接收了与唤醒词相符的原始资料,在训练的过程中,注意力机制会自动学习需要特别注意哪个唤醒词的声音特征,用于辨识随后的语音资料。

在另一个实验中,AWS训练了一套更明确的模型,来强调与唤醒词相符的输入语音资料,首先,AWS加入了一个直接比对唤醒词和随后语音输入资料的机制,接着,利用比对的结果当作学习遮蔽语音向量机制的输入资料,原本AWS预期该方法的结果会更胜于第一种方式,但是结果显示,遮蔽方式的模型效果稍差,只将语音辨识的错误率降低13%,AWS怀疑是因为遮蔽编译器输出的结果,只有根据编码器网络的状态来决定,而注意力机制的模型则是参考了编译器和解码器的状态,因此,未来,AWS预计遮蔽机制也要将解码器的网络状态纳入考量。

2019-04-23 16:16:00

相关文章