最高识别率可达 99%!刚刚火山语音 ASR 技术,实力获得国检中心权威检测
消息来源:baojiabao.com 作者: 发布时间:2026-02-17
2023 年 1 月 9 日,由国家工业信息安全发展研究中心举办的以"智融应用质惠未来"为主题的人工智能高质量融合与安全应用研讨会在京举行。
会上针对技术评测以及标准化工作带来的成果,研究中心公布了一众通过 AI 国检中心检验检测的优秀行业企业,其中火山引擎语音识别产品榜上有名,获得国家语音及图像识别产品质量检验检测中心(以下简称"AI 国检中心")颁发的语音识别增强级检验检测证书,在语音识别的基本要求以及扩展要求上均已达 AI 国检中心的最高等级标准。
本次技术评测涵盖中文普通话、方言混合、语种混合识别在低噪和高噪唤醒下的识别效果和准确率等多个角度,经专业评测后最高语音识别字正确率可达 99.54%,集中体现了在火山语音支持下的语音识别技术能力和产品方案成熟度获得了业界认可。
作为我国质检系统在人工智能领域的首家、也是唯一的国家级语音及图像产品质量检验检测机构,AI 国检中心始终致力于推动智能语音产业的健康发展。本次获得 AI 国检中心的权威检测,也充分表明了火山语音的语音识别技术能力已达行业领先水平。
长期以来,火山语音(字节跳动 AI Lab Speech & Audio 智能语音与音频团队)将打磨多年的 AI 语音技术能力以及全栈语音产品解决方案面向市场并通过火山引擎开放给外部企业,目前已经覆盖多种语言和方言,涵盖音视频、有声阅读、语音交互、游戏、广告等众多行业应用场景,为抖音、剪映、飞书、番茄小说、Pico 等核心业务提供了领先的 AI 语音能力应用与拓展。
本次参评的火山引擎语音识别产品为火山语音团队自主研发的端到端流式语音识别系统,主要涵盖语音识别、断点检测、逆文本标准化、智能分句以及标点、口语顺滑等模块,对口音、复杂的声学场景都体现了更强的鲁棒性,对不同领域词汇的识别率以及推理速度、识别结果展示速度等均比其他竞品有大幅提升。
混合模型和端到端模型的对比示意图
众所周知语音识别主要负责将音频转换成文字,为了兼顾效率和成本,火山语音团队率先基于 RNN-T 框架,通过大量训练数据的积累和持续的算法优化,自研推出的端到端的流式语音识别系统,有效规避传统语音识别系统中涉及的大量人工假设,采用了业界领先的 Conformer 结构,做到同时对局部信息以及全局信息进行建模,识别效果较传统的 CNN、LSTM 和 DFSMN 等结构都有大幅提升。
此外团队又从模型角度优化了 Conformer 的训练和推理耗时,主要通过下采样和 Attention Mask 等方式,凭借自研的模型压缩框架,自动对模型进行裁剪和量化,在降低计算复杂度的同时做到效果基本无损;并提出将上下文信息引入语音识别系统中来提升系统的识别效果,更充分的将对话历史信息融入到 RNN-T 模型中,目前该论文已成功入选全球最大的综合性语音信号处理盛会 Interspeech2022。
(a)基础 RNN-T 结构(b)引入对话历史到 predictor 的结构(c)引入对话历史到 encoder 的
如今在火山语音 ASR 技术支持下,火山引擎语音识别产品已广泛应用于金融、传媒、互娱、游戏等多类应用场景中,例如在短视频成为全民时尚的今天,为了改变视频内容生产过程中传统添加字幕方式带来的反复听写校对以及逐帧对齐的费时费力,与过程中需要精通多语言并熟悉字幕文件的制作的高门槛要求,火山语音自研推出了智能字幕解决方案。
该方案不仅能够高效识别方言与歌曲,还可以针对语种混合以及说话唱歌混合的场景有不错的识别效果;实践过程中团队通过对用户创作内容的音频特性以及领域分析,凭借算法优化大大提升语音识别对于噪声场景、多人说话等复杂场景的表现。尤其面对移动端用户针对功能响应时间的较高要求,即希望字幕可以既快且准,还做了大量的工程优化和策略,1 分钟的视频只需 2-3 秒即可完成。
智能字幕解决方案的展现
除此之外为应对人们对于音频信息的获取效率远低于文本信息的获取效率的情况,火山语音又强力推出了"千言转文字,一字胜千言"的实时字幕解决方案,通过"语音识别 + 语音翻译"的 AI 链路让跨国家、跨语言交流变得更加流畅;凭借自动生成会议记录与纪要,做到大大提升与会者的工作效率,大幅减少会后整理和会中记录的工作量。
值得提及的是,在 2022 年卡塔尔世界杯期间,火山语音的 ASR 技术能力还同步支持了上线抖音的"无障碍字幕直播间",截至 12 月 19 日决赛,已有累计超过 1905 万人在该直播间观看了球赛,累计观看次数超过 2624 万次。
赛事期间,火山语音团队通过自研推出的端到端的流式语音识别系统,着力解决了世界杯比赛场景中外国球员教练员的人名识别等难题,通过对足球相关领域专有名词、球队和球员名称等术语进行自动化语料挖掘,凭借语言模型干预和自动化热词干预完成专项优化,从而发挥更好的识别效果;还凭借对解说场景的分析以及对现场原声的分析进行模型调优,做到在"解说 + 现场原声 + bgm"的复杂场景下也能准确识别,为观众呈现更佳的字幕效果,带来更好的观赛体验。
无障碍字幕直播间展示
伴随不断的创新发展,火山引擎语音识别产品已广泛应用于视频娱乐、办公会议、硬件交互、智能客服等诸多行业,为用户提供了优质且有前景的语音识别解决方案。可以想见,未来在火山语音不断探索前沿科技与业务场景的高效结合的基础上,持续为用户体验和业务增长注入创新势能以实现更大价值乃是大势所趋。
2023-02-12 18:49:52相关文章
炒港股要补交多少税?我也接到催交补税特别行动的电话了2025-07-23 17:36:43
淘宝天猫仅退款属于诈骗吗?淘宝天猫开始部分取消仅退款2024-10-01 13:01:28
哈啰app借钱|哈啰借钱app下载安装免费小小上当和电话骚扰2024-10-01 11:22:38
白嫖党|山西大同大学学生网购申请“仅退款”被拒骂客服一小时2024-09-27 09:10:44
北大数学教授袁新意《姜萍事件的疑点分析》点评姜萍板书 阿里巴巴竞赛受质疑2024-06-28 10:07:40
天猫新规可以无条件申请“仅退款”了?淘宝天猫又离狗多多零元购近了一步2024-06-28 09:27:13
美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
国家新闻出版署:认真研究《网络游戏管理办法(草桉徵求意见稿)》关切 实行前进一步完善2023-12-28 19:14:56
印度以打击金融犯罪为由逮捕了两名 vivo 高管2023-12-26 16:49:01
在国外微信收不到国内信息?微信和WeChat将被拆分2023-12-15 10:40:15
苹果iPhone15 系列手机发布最新消息 预计上市发布时间9月2023-08-06 23:21:02
华为将发布鸿蒙HarmonyOS4操作系统 功能五大升级支持设备清单2023-08-06 23:17:37
整治自媒体网红账号 400万粉丝网红发布擦边视频被无限期封禁2023-07-12 09:56:09
网传微信文件传输助手是真人是真的吗?微信官方回应2023-06-27 15:53:32
电信移动送手机成了“信用购”?你上了运营商的贷款套路了吗?2023-06-12 17:18:55
中国电信广东地区崩了无信号 客服回应已在核实处理2023-06-08 15:39:04
消息称小米新能源汽车价格表正讨论定价区间:双版本不同配置,高配或超 35 万元2023-03-06 12:56:03
华为因制裁被传或分拆剥离手机业务? 内部人士回应:可能性不大.2023-03-05 23:26:41
OPPO正式发布安第斯智能云,让终端更智能2023-02-24 16:02:27














