Meta 发布会读唇语的 AI,可提高嘈杂场景的语音识别准确率(已开源)
消息来源:baojiabao.com 作者: 发布时间:2024-05-19
借助读唇语,人类能够更容易听懂他人的讲话内容,那么 AI 也能如此吗?
最近,Meta 提出了一种视听版 BERT,不仅能读唇语,还能将识别错误率降低 75%。
效果大概就像如下这样,给一段视频,该模型就能根据人物的口型及语音输出他所说的内容。
而且与此前同类方法相比,它只用十分之一的标记数据,性能就能超过过去最好的视听语音识别系统。
这种结合了读唇的语音识别方法,对于识别嘈杂环境下的语音有重大帮助。
Meta 的研究专家 Abdelrahman Mohamed 表示,该技术未来可用在手机智能助手、AR 眼镜等智能设备上。
目前,Meta 已将相关代码开源至 GitHub。
自监督 + 多模态
Meta 将该方法命名为 AV-HuBERT,这是一个多模态的自监督学习框架。
多模态不难理解,该框架需要输入语音音频和唇语视频两种不同形式内容,然后输出对应文本。
Meta 表示,通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息,AV-HuBERT 可以捕捉到音频和视频间的微妙联系。
这和人类本身感知语言的模式很相似。
此前已经有研究表明,阅读唇语是人类理解语言的一种重要方式。尤其是在嘈杂的环境下,通过读唇可以将语言识别的准确性最高提升 6 倍。
在该模型中,通过一个 ResNet-transformer 框架可将掩码音频、图像序列编码为视听特征,从而来预测离散的集群任务序列。
具体来看,AV-HuBERT 使用帧级同步的音频流和视频流作为输入,来更好地建模和提取两种模态之间的相关性。
图像序列和音频特征能够通过轻量级的模态特定编码器来产生中间特征,然后将这个中间特征融合并反馈到共享的主干 transformer 编码器中,以此来预测掩蔽聚类任务 (masked cluster assignments)。
该目标是根据聚类音频特征或 AV-HuBERT 模型上一次迭代中提取的特征生成的。
当对唇读微调时,该模型只使用视觉输入、不使用音频输入。
结果表明,AV-HuBERT 经过 30 个小时带有标签的 TED 演讲视频训练后,单词错误率(WER)为 32.5%,而此前方法能达到的最低错误率为 33.6%,并且此方法训练时间高达 31000 个小时。
WER 是语音识别任务中的错误率指标,计算方法为将错误识别单词数除以总单词数,32.5% 意味着大约每 30 个单词出现一个错误。
经过 433 个小时 TED 演讲训练后,错误率可进一步降低至 26.9%。
另一方面,AV-HuBERT 与前人方法最大不同之处在于,它采用了自监督学习方法。
此前 DeepMind、牛津大学提出的方法中,由于需要对数据集打标签,使得可学习的词汇范围受到限制。
AV-HuBERT 在预训练中使用特征聚类和掩蔽预测两个步骤不断迭代训练,从而实现自己学习对标记的数据进行分类。
这样一来,对于一些音频数据集很少的语言,AV-HuBERT 也能很好学习。
在使用不到十分之一的标记数据(433 小时 / 30 小时)情况下,该方法可将识别错误率平均降低至此前方法的 75%(25.8% vs 5.8%)。
事实上,在有噪音的环境中,能读唇语的语音识别方法更能大显身手。
Meta 研究人员表示,当语音和背景噪音同样音量时,AV-HuBERT 的 WER 仅为 3.2%,而之前的最佳多模态模型为 25.5%。
仍存在弊端
显然,在各方面数据上,Meta 新方法的表现着实让人眼前一亮。
但是基于现实使用方面的考虑,有学者提出了一些担忧。
其中,华盛顿大学的人工智能伦理学专家 Os Keye 就提到,对于因患有唐氏综合征、中风等疾病而导致面部瘫痪的人群,依赖读唇的语音识别还有意义吗?
对此,Meta 方面研究人员回应称,AV-HuBERT 方法更多关注于唇部动作,并非整个面部。
而且与大多数 AI 模型类似,AV-HuBERT 的性能"与训练数据中不同人群的代表性样本数量成正比"。
论文地址:
https://arxiv.org/abs/2201.02184
https://arxiv.org/abs/2201.01763
GitHub 地址:
https://github.com/facebookresearch/av_hubert
参考链接:
https://venturebeat.com/2022/01/07/meta-claims-its-ai-improves-speech-recognition-quality-by-reading-lips/
2022-05-08 06:16:55相关文章
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩
2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万9
2023-12-28 19:41:57
- 国家新闻出版署:认真研究《网络游戏管理办法(草桉徵求意见稿)》关切 实行前进一步完善
2023-12-28 19:14:56
- 天猫新规可以无条件申请“仅退款”了?淘宝天猫又离狗多多零元购近了一步
2023-12-28 18:57:55
- 印度以打击金融犯罪为由逮捕了两名 vivo 高管
2023-12-26 16:49:01
- 在国外微信收不到国内信息?微信和WeChat将被拆分
2023-12-15 10:40:15
- 苹果iPhone15 系列手机发布最新消息 预计上市发布时间9月
2023-08-06 23:21:02
- 华为将发布鸿蒙HarmonyOS4操作系统 功能五大升级支持设备清单
2023-08-06 23:17:37
- 整治自媒体网红账号 400万粉丝网红发布擦边视频被无限期封禁
2023-07-12 09:56:09
- 网传微信文件传输助手是真人是真的吗?微信官方回应
2023-06-27 15:53:32
- 电信移动送手机成了“信用购”?你上了运营商的贷款套路了吗?
2023-06-12 17:18:55
- 中国电信广东地区崩了无信号 客服回应已在核实处理
2023-06-08 15:39:04
- 消息称小米新能源汽车价格表正讨论定价区间:双版本不同配置,高配或超 35 万元
2023-03-06 12:56:03
- 华为因制裁被传或分拆剥离手机业务? 内部人士回应:可能性不大.
2023-03-05 23:26:41
- OPPO正式发布安第斯智能云,让终端更智能
2023-02-24 16:02:27
- 华为与OPPO签订全球专利交叉许可协议 包括5G蜂窝通信专利
2023-02-24 16:02:26
- 老蛙将推MINI镜头新品:目前未知具体规格 官宣将于12月20日发布
2023-02-24 16:02:26
- 首发全新35mm定制光学系统 努比亚Z50性能同样强悍
2023-02-24 16:02:25
- Redmi K60屏幕细节曝光:全系标配2K护眼柔性直屏+5000mAh大容量电池
2023-02-24 16:02:25
- OPPO Find N2今天发 合金金属折叠屏更轻了
2023-02-24 16:02:24