APP下载

Google利用深度学习,实现如人类般在嘈杂环境中将自己想听的人的音轨独立出来

消息来源:baojiabao.com 作者: 发布时间:2024-05-19

报价宝综合消息Google利用深度学习,实现如人类般在嘈杂环境中将自己想听的人的音轨独立出来

人类是一种相当特殊的生物,独特的感官能够针对环境做出相当多精密的调适,包括视觉的白平衡,以及在嘈杂环境中的指向性收音能力;能够在混乱嘈杂环境中聆听到眼前人物的声音的能力有个专有名词,称为鸡尾酒会效应,这项能力对人类来说是稀松平常,不过对机器来说却相当困难,然而 Google 的研究员借由深度学习所开发的 Looking to Listen ,成功的将复杂环境中视线指定人物的说话声隔离出来。

对机器来说,要能够将同一个人的说话声给独立分离出来并不难,要把背景噪音消除也不是难事,不过一般的音轨分析技术仅能将人声音轨分离,但这项技术则是透过分析影片中的人物与音轨,将影片中人物的声音与人物进行对照,并可在示范短片中选择想要聆听的人物的脸孔,就会将另一人的声音隔离。

这项技术总共从 YouTube 搜集高达 10 万部演讲影片,并将这些没有背景干扰(包括没有音乐、与他人的声音)的影片剪接成超过 2,000 小时的影片,同时再把这些剪接过的影片混入环境噪音,他人的声音,并搭配有其他人脸的影片等作成类似鸡尾酒效应的情境,并透过多层卷积神经网络将这些混合后的声音再度处理成独立音轨,同时让系统学习如何对照音轨与人物,使系统学习如何像人一样可借由鸡尾酒效应获得自己想听的人物与声音。

目前 Google 科学家也在思索这些技术可能应用的领域,未来不排除把这项技术用于 Google 的产品当中,或许未来结合摄影机的智慧家庭语音服务、会议影音的自动化逐字稿都是有可能的应用。

新闻来源: Google

2018-05-10 09:37:00

相关文章