APP下载

Google为影片、电话和虚拟助理量身打造语音辨识模型,提高语音转文字准确性

消息来源:baojiabao.com 作者: 发布时间:2024-04-26

报价宝综合消息Google为影片、电话和虚拟助理量身打造语音辨识模型,提高语音转文字准确性

继Google在上个月推出透过DeepMind高传真人声合成技术WaveNet开发的云端文字转语音服务之后,9日宣布更新云端语音转文字服务(Cloud Speech-to-Text),不但加入针对特定模式的语音辨识模型,也提高了辨识的准确度,还提供自动加入标点符号的功能,该服务两年前刚推出时名为Cloud Speech API。

云端语音转文字服务是在2016年推出,在大约一年前推出正式版,该服务每半年的使用量都是双倍成长,这次Google更新了语音转文字服务,并加入新功能,包括电话和影片模式的语音转文字服务,目前这两个模型可支援英文,未来还会陆续支援其他语言。

目前语音转文字服务支援多项功能,举例来说,该服务内建预先建立的语音辨识模型,来增加文稿的准确度,还有自动加入标点符号的功能,来增加文稿可读性,该服务还有一项透过标注和分类语音转文字改善准确率的机制,用户可以标注像是购物的语音、篮球比赛电视节目等类别,来描述语音的主题,增加该服务的准确度,此外,因为该服务目前是正式版,提供99.9%可靠性的SLA保证。

由于语音辨识有多种不同的模式,包含影片、电话或是人机命令式的互动,这次的更新将加入针对不同模式的客制化模型,像是针对电视转播篮球比赛的语音辨识,讲话的人可能会超过4个,背景的杂音会有观众的欢呼声、音乐、篮球或是跳跃的声音,语音辨识的长度也可能长达2个小时以上。

以处理电话语音为例,Google以往会先将打进来的电话转录到针对电话语音优化过的模型,现在则是可以让企业自行选择最适合的模型,而不用仰赖自动推荐的模型。

Google表示,许多云端厂商会用语音数据来优化自家的产品,Google为了保障用户的隐私权,避免这样的做法,而是让用户选择是否要分享语音数据,由于还是有用户期望Google透过真实的数据,提供更准确的语音辨识模型。

因此,Google建立了另一套模型Enhanced phone_call,透过自愿提供真实数据的用户资料来改善模型,自愿加入这项计划的用户可以使用该模型之外,也能使用其他自愿用户优化过的模型。Google指出,与一般的模型相比,Enhanced phone_call模型的语音辨识错误率减少了54%。

除此之外,Google也推出了针对影词组音辨识模型,该模型经过多个管道和人声的优化,透过类似于YouTube自动产生字幕的机器学习技术,优化过后该模型错误率相比以往下降了64%。

最后,Google团队最近建立长短期记忆(Long Short-Term Memory,LSTM)神经网络,来改善长篇语音转文字的自动下标点符号功能,可以自动提供逗号、句号、问号等,目前还是测试版。

2018-04-10 17:32:00

相关文章