AWS利用唤醒词语音资料过滤背景音，使Alexa辨识错误率降低15%最新消息

AWS利用唤醒词语音资料过滤背景音，使Alexa辨识错误率降低15%

消息来源:baojiabao.com 作者: 发布时间：2024-05-20

报价宝综合消息AWS利用唤醒词语音资料过滤背景音，使Alexa辨识错误率降低15%

图片来源:

AWS

AWS发布一项提升Alexa语音辨识率的技术，透过唤醒词声音快照，并将接随后的语音与之比对，接收到的语音若与唤醒词吻合，则将该语音视为Alexa要接收的语句，若不相符，则视为背景噪音。

与其额外训练另一个神经网络，来区别用户的声音和背景噪音，AWS将唤醒词比对机制整合至现有的标准自动语音辨识系统中，接着，将整个模型进行训练，来辨识系统接收到的语音，在实验中，这项方法能够将语音辨识错误率减少15％。

AWS如何实现这项技术？首先，AWS团队建立了2种不同的神经网络架构，2种网络架构都是Seq2seq的变化版，加入了注意力（attention）机制，也就是保留了输入序列的中间输出结果，训练一个模型来针对这些输入进行选择性的学习，该网络架构都是encoder-decoder框架，编译器会将语音输入资料整理成固定长度的向量序列，通常向量会比原本输入资料更小，而解码器则会将该向量转换为输出，整个网络是一起训练的，因此，编译器可以学习如何产生适合解码器任务的总结向量。

最后，再透过注意力机制来告诉解码器在生成输出结果时，要注意编译器产生的向量中哪一个元素，在Seq2seq的模型中，注意力机制的决定通常都是根据现有编译和解码器网络的状态。

AWS对于基本的网络模型做了一些调整，在注意力机制中加入了一个输入资料，除了从现有的编译器和解码网络中接收资料，AWS调整过的注意力机制还接收了与唤醒词相符的原始资料，在训练的过程中，注意力机制会自动学习需要特别注意哪个唤醒词的声音特征，用于辨识随后的语音资料。

在另一个实验中，AWS训练了一套更明确的模型，来强调与唤醒词相符的输入语音资料，首先，AWS加入了一个直接比对唤醒词和随后语音输入资料的机制，接着，利用比对的结果当作学习遮蔽语音向量机制的输入资料，原本AWS预期该方法的结果会更胜于第一种方式，但是结果显示，遮蔽方式的模型效果稍差，只将语音辨识的错误率降低13％，AWS怀疑是因为遮蔽编译器输出的结果，只有根据编码器网络的状态来决定，而注意力机制的模型则是参考了编译器和解码器的状态，因此，未来，AWS预计遮蔽机制也要将解码器的网络状态纳入考量。

2019-04-23 16:16:00

AWS利用唤醒词语音资料过滤背景音，使Alexa辨识错误率降低15%

品牌选车