Google为影片、电话和虚拟助理量身打造语音辨识模型，提高语音转文字准确性最新消息

Google为影片、电话和虚拟助理量身打造语音辨识模型，提高语音转文字准确性

消息来源:baojiabao.com 作者: 发布时间：2024-04-26

报价宝综合消息Google为影片、电话和虚拟助理量身打造语音辨识模型，提高语音转文字准确性

继Google在上个月推出透过DeepMind高传真人声合成技术WaveNet开发的云端文字转语音服务之后，9日宣布更新云端语音转文字服务（Cloud Speech-to-Text），不但加入针对特定模式的语音辨识模型，也提高了辨识的准确度，还提供自动加入标点符号的功能，该服务两年前刚推出时名为Cloud Speech API。

云端语音转文字服务是在2016年推出，在大约一年前推出正式版，该服务每半年的使用量都是双倍成长，这次Google更新了语音转文字服务，并加入新功能，包括电话和影片模式的语音转文字服务，目前这两个模型可支援英文，未来还会陆续支援其他语言。

目前语音转文字服务支援多项功能，举例来说，该服务内建预先建立的语音辨识模型，来增加文稿的准确度，还有自动加入标点符号的功能，来增加文稿可读性，该服务还有一项透过标注和分类语音转文字改善准确率的机制，用户可以标注像是购物的语音、篮球比赛电视节目等类别，来描述语音的主题，增加该服务的准确度，此外，因为该服务目前是正式版，提供99.9％可靠性的SLA保证。

由于语音辨识有多种不同的模式，包含影片、电话或是人机命令式的互动，这次的更新将加入针对不同模式的客制化模型，像是针对电视转播篮球比赛的语音辨识，讲话的人可能会超过4个，背景的杂音会有观众的欢呼声、音乐、篮球或是跳跃的声音，语音辨识的长度也可能长达2个小时以上。

以处理电话语音为例，Google以往会先将打进来的电话转录到针对电话语音优化过的模型，现在则是可以让企业自行选择最适合的模型，而不用仰赖自动推荐的模型。

Google表示，许多云端厂商会用语音数据来优化自家的产品，Google为了保障用户的隐私权，避免这样的做法，而是让用户选择是否要分享语音数据，由于还是有用户期望Google透过真实的数据，提供更准确的语音辨识模型。

因此，Google建立了另一套模型Enhanced phone_call，透过自愿提供真实数据的用户资料来改善模型，自愿加入这项计划的用户可以使用该模型之外，也能使用其他自愿用户优化过的模型。Google指出，与一般的模型相比，Enhanced phone_call模型的语音辨识错误率减少了54%。

除此之外，Google也推出了针对影词组音辨识模型，该模型经过多个管道和人声的优化，透过类似于YouTube自动产生字幕的机器学习技术，优化过后该模型错误率相比以往下降了64%。

最后，Google团队最近建立长短期记忆（Long Short-Term Memory，LSTM）神经网络，来改善长篇语音转文字的自动下标点符号功能，可以自动提供逗号、句号、问号等，目前还是测试版。

2018-04-10 17:32:00