
大资料文摘专栏作品
作者:Christopher Dossman
编译:笪洁琼、fuma、云舟
呜啦啦啦啦啦啦啦大家好,本周的AIScholar Weekly栏目又和大家见面啦!
AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。
每周更新,做AI科研,每周从这一篇开始就够啦!
本周关键词:音讯生成模型、端到端的音视讯语音识别、张量计算
本周热门学术研究
地表最强语音活动检测(rVAD)
为了开发用于语音活动检测的强大算法,研究人员设计了rVAD。新方法先使用了两个去噪通道,然后再新增语音活动检测(VAD)算法。
第一遍检测涉及语音讯号中的高能段,其通过使用后验信噪比(SNR)加权能量差来检测。如果在段内没有检测到音调,则将其视为高能噪声段并设定为零。

在第二遍检测中,该方法通过语音增强对语音讯号进行去噪。该方法进一步评估了RedDots 2016挑战数据库中的资料以验证效能。结果证明了rVAD相比传统方法具有竞争力。
我们都需要更好、更有效的AI算法。更精确的VAD方法有助于AI社群实现效能更好的语音通讯系统。谈话语音识别,语音编码,说话人识别,回声消除,音讯会议,扩音电话等应用均可从中获益。
这一研究还提出了rVAD方法的修改版本(rVAD-fast),它显著降低了计算复杂性,并给予了算法在处理大量资料和运行于资源受限装置上时的优势。
原文:
学习从音讯提示中玩电子游戏
Game AI Research Group已经在现有代理(和基于视觉的游戏)的现有框架内开发了一个音讯游戏API。该研究是聚焦于训练游戏代理仅通过音讯线索玩电子游戏的初步实验。

研究人员扩充套件了视讯游戏描述语言,引入了音讯的描述规范,并且使用通用视讯游戏AI框架(General Video Game AI Framework)提供新的音讯游戏和API,以训练代理利用音讯进行观察。他们分析了游戏和音讯游戏的设计过程,并使用简单的QLearning代理得到了初始结果。
这一研究提供了游戏中的背景音讯分析。研究的结果可以与其他方法结合使用,以最大化感测器使用,并获得卓越的游戏音讯效能。这项工作提出了许多新的研究方向。人工智能社群可以在该领域做进一步的研究。
例如,可以进一步分析声音以建立适当的响应。它们也可以帮助确定特定声音的含义。此外,通过观察某些特定的声音如何影响代理效能以及如何被删除,可以提高工作质量。
原文:
组会又睡过去了? BERT帮你提取讲座的文字摘要
最近,通过深度学习方法的机器学习已经证明通过聚类输出嵌入可以有效地进行提取总结。这项研究工作主要使用深度学习技术和基于python的RESTful讲座摘要服务。该服务利用BERT模型进行文字嵌入和KMeans聚类,从而能够识别关闭到质心的句子并进行摘要选择。

这一工作的目的是为学生提供一种服务,可以根据他们想要的句子数量来总结讲座内容。该服务还包括讲座和摘要管理,可以在云上储存和协作。
除文件摘要外,该技术还可广泛应用于搜索引擎,影象和视讯集等领域。研究结果非常有希望实现动态提取讲座摘要,但仍有改进的余地。
程式码:
原文:
基于动态词汇表的词级语音识别
Facebook人工智能研究(小组)提出了一种带有动态词汇表的直接到词的词序列模型。该模型从字元标记中动态构建单词嵌入,可以与任意序列模型无缝整合,包括连线型时间分类模型和注意力编码-解码模型。

该算法还可以在语音识别子词级模型的基础上实现单词错误率的降低。此外,研究人员还证实,我们所学习的词级嵌入包含重要的声学资讯,这使得它们更适合用于语音识别。这种新的直接对单词的方法,具有预测训练时没有出现的单词的能力,并且不需要重新训练。
直接预测单词的能力对于实现更简单、更鲁棒的端到端自动语音识别(ASR)系统并同时实现超高的准确性和效率将具有重要的意义。
原文:
基于自注意力的音乐标签深层序列模型
卷积递回神经网络(CRNN)目前在文件分类、影象分类、音乐转录以及自动音乐标签等方面都非常成功。研究人员现在提出了一个基于自注意力的音乐标签深层序列模型。

该模型由浅卷积层和堆叠迁移编码器组成。与使用完全卷积或递回神经网络的传统方法相比,新的体系结构更具解释性。使用MagnaTagATune和Million Song资料集(自动音乐标记研究资料集)对模型进行评估,可以得到具有竞争力的结果。该模型还演示了标签贡献视觉化热图的可解释性。
这一模型获得了更好的可解释性,从而获得更好的直觉以进行模型设计。而且,由于提出的架构不是特定于任务的,因此可以扩充套件到其他MIR任务,包括节拍检测、节奏分类或音乐转录等。
详细程式码请见:
原文:
其他爆款论文
新的姿态估计方法,可以帮助设计机器人系统,具有与不属于预先定义类别的野外新物件互动的能力:
可区分的射影算子,可用于PrGAN学习更好的三维生成模型:
社会人工智能资料集释出,通过计算的方法帮助理解人类社会互动:
生成模型如何能够捕获多个样本上的分布,并使用取样生成各种样本:
研究人员利用可变嵌入容量进行鲁棒语音合成:
AI新闻
人工智能可否帮助人们更清楚地了解社会以及如何影响自然世界?
专栏作者介绍
Christopher Dossman是Wonder Technologies的首席资料科学家,在北京生活5年。他是深度学习系统部署方面的专家,在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验,他还教授了1000名学生了解深度学习基础。
LinkedIn:
https://www.linkedin.com/in/christopherdossman/
志愿者介绍
后台回复“志愿者”加入我们































