APP下载

【台湾AI语音引擎实例:台湾AI实验室】语音辨识不输国外,雅婷App连乡民用语都能懂

消息来源:baojiabao.com 作者: 发布时间:2024-04-26

报价宝综合消息【台湾AI语音引擎实例:台湾AI实验室】语音辨识不输国外,雅婷App连乡民用语都能懂

台湾AI实验室创办人杜奕瑾表示,语音辨识技术深受在地化需求的影响,需要用在地语料打造出来的语音辨识引擎,才能真正打造符合台湾在地需求、贴近在地民众的说话用语,或使用习惯。(摄影/洪政伟)

图片来源: 

台湾AI实验室,杜奕瑾,

为何同样是中文语音辨识,台湾AI实验室推出的中文语音转文字App,和用国外做出来的就是很不一样,有着浓浓的台味,许多台湾人用了以后,都对它赞不绝口,而且去年底一推出,就引发热烈回响,不到一周就冲上Android平台生产力类第一名,成为最受欢迎App,甚至比Google Drive、Gmail下载的用户都还多,不但记者拿它记录,听障人士听广播、看电视也都用它。

台湾AI实验室去年底推出一款逐字稿App,靠着使用台湾在地语料,学习民众常见的用词、习惯用语,一推出就大受好评,现在不只能辨识在地的PTT乡民用语, 甚至再过几个月,中英夹杂说话方式也难不倒它。

语音辨识要贴近在地需求,在地化资料是关键

台湾AI实验室创办人杜奕瑾点出关键,就在于他们开发的中文语音辨识引擎,用的是土生土长的台湾在地化语料,搜罗了包含台湾新闻、电视节目、 批踢踢(PTT)文章等语音和文字资料,让AI可以经由学习,知道台湾民众常见的用词、习惯用语,或说话方式等,就连帮App取名称也很在地,就叫“雅婷”。现在不只能辨识“踹共”、“母汤”这些乡民用语, 甚至再过几个月,中英夹杂说话方式也难不倒它。

“语音辨识技术深受在地化需求的影响。” 杜奕瑾说明,即使英文的语音辨识很强,不见得在中文辨识就会比较厉害,因为需要用在地语料,才能开发出符合当地需求、贴近在地民众的使用习惯、说话用语的语音应用,就连现在许多常见词汇,比如PTT乡民用语,实际拿国外语音辨识引擎来试,很多都不及格,正反映了它很需要在地化资料。

如今,台湾在中文语音辨识准确率上,跟国外相比毫不逊色,甚至有的辨识效果比国外还准确。根据台湾AI实验室用华语文能力测验来做测试,语音判断的结果已经比中国科大讯飞和Google都好,中文字错字率(word error rate)已经达到5 ~6%,科大讯飞的错字率则有15~16%,两者相差多达10%。对照国外产业Switchboard语音辨识基准测试的字错率,错字率低于6%,等同于人类专业速记员水准,虽然两者比较的基础不同,但也反映出,台湾在中文语音辨识技术上的重要突破。

要用软件创造取代传统代工思维

不过,杜奕瑾也直言,几年前刚回台决定要发展台湾在地化AI技术时,很多人都不看好,甚至也有科技界大老看衰,不相信台湾有能力会做得好,“我觉得这是没必要的悲观”,其实台湾的软件开发能力是不输全世界,重点是有没有想要好好地在台湾发展软件产业。

他也指出,台湾想要发展在地化的中文AI语音引擎,最大挑战是要改变思维,应以软件创造思维,来取代一味模仿或压低制造成本的传统代工思维,才能在新技术出现时,很快从自身周围问题找到潜在应用,把它做到最好。

“这就是我们要推雅婷这个App的原因。”杜奕瑾说真正目的,是要向全世界证明,台湾不只有能力自己做,而且更要在最短时间完成,然后开放让所有人都能使用。当这些人在使用的同时,也就在厚植台湾在地AI软件实力,同时吸引更多台湾一流软件人才回流,共同一起帮台湾在地AI语音引擎做到更好。

2019-02-21 12:36:00

相关文章