APP下载

鸡尾酒效应挑战达成,Google打造出在吵杂环境能辨识特定人声的模型

消息来源:baojiabao.com 作者: 发布时间:2024-05-16

报价宝综合消息鸡尾酒效应挑战达成,Google打造出在吵杂环境能辨识特定人声的模型
图片来源: 

Miki Rubinstein

Google近日用深度学习打造出可以在有许多声音的复杂环境下,将特定人声分离,单独辨识每个人声音的模型,在有背景声音或是环境噪音的情况下,也能将背景音的影响降到最低,辨识出主要讲话的人声。

鸡尾酒效应一直是语音辨识研究的问题之一,对人类而言,在吵杂的环境中,将聆听的注意力放在特定的人声上并不困难,但是对语音辨识仍然是一大挑战,因为模型必须先将语音分离成单独的语音来源,才能分开辨识不同的人声。

Google打造了深度学习视听模型,来隔离单一的语音讯号和混合的声音,像是在吵杂的环境中,或有有多个不同人声的环境,增强特定对象的人声,将其他声音去除,让模型专注于辨识单一特定的人声。

Google表示,这个模型最大的突破在于,可以将输入的影片分离成视觉和听觉特征,透过视觉特征来辨识当下正在说话的人,经过比对之后,判断出影片中正在说话的人,简单来说,模型透过嘴巴动作和产生的声音,来建立关连,协助辨认影片中哪个部分的声音与哪一个人对应,经过声音分离模型之后,会输出个别的声音资讯。

为了训练分离声音的模型,Google收集了Youtube平台上大约10万支演讲的影片,从这些影片中,撷取较清楚的语音且只有单一演讲者出现在画面中的影片,像是没有背景音乐、观众声音或是其他演讲者的影片,经过过滤后,大约用了2,000小时的影片资料来训练模型。

接着,Google透过这些资料产生合成鸡尾酒派对(Synthetic cocktail parties),将Google语音数据库AudioSet和多个人脸影片混合到资料集,再利用这些数据来训练卷积神经网络模型,把合成鸡尾酒派对的资料集分解成独立的语音流,来训练模型分离不同的声音,辨识独立的人声。

2018-04-14 23:31:00

相关文章