APP下载

在线语音识别准确率领先15%,百度输入法AI探索…

消息来源:baojiabao.com 作者: 发布时间:2024-04-19

报价宝综合消息在线语音识别准确率领先15%,百度输入法AI探索…

  当所有的“发声”都得到回应,越来越多的普通人拥有了深切感受AI的机会。去年1月,百度输入法用实力拉开了“AI·输入 全感官输入1.0”的序幕,今年1月,百度输入法再次召开以“AI·新输入 全感官输入2.0”为主题的发布会。短短一年之后,百度输入法就再次基于科技创新与功能创新,推出了一款主打全语音交互的AI输入法产品。

  据悉,当天发布的“百度输入法AI探索版”,是一款集合了多项AI能力、面向未来的全新输入产品。不仅在输入形态上,充分调动了语音、表情、动作等多方面感官,让“输入”变得便捷有趣;还在使用场景上,带来科幻电影般的新鲜体验。发布会现场,百度高级副总裁王海峰再次强调了输入法“AI落地的桥头堡”的效用,他指出,一方面,输入法是离用户最近的产品之一,另一方面,百度全方位的AI能力也在不断赋能输入法。通过AI技术的加持,用户通过文字、语音、表情、动作都能进行交互,还能实现一些更科幻的场景,高效便捷的同时也展现了未来智能蓝图。

  语音识别:四项重大语音技术突破打造最强AI输入法

  当用户开启百度输入法AI探索版后,点击语音按钮,除了可以说出你要记录的内容,让输入法帮你直接录入转文字,还可以呼唤“小度小度”语音助手,并说出相应指令。即可实现语音修改、发表情、发弹幕、发文件等一系列操作,满足与输入相关的周边需求,可以说,百度输入法AI探索版的核心亮点之一就是语音能力。

  百度输入法AI探索版

  百度输入法的语音能力,在过去一年中不仅有着世界领先的重大技术性突破,更有着功能性创新突破。首先,百度输入法洞察到年轻圈层的“中英文混合”表达方式,以及不同地区用户的“方言输入”需求,因此通过不断优化技术和训练新的识别模型,从而实现了“中英文混合识别”与“方言自动识别”两大功能突破。让用户可以自由地使用自己熟悉的表达方式。据悉,百度输入法是目前唯一实现了高精准中英文混合语音输入、唯一实现了方言免切换语音输入的输入法产品。

  此外,据国内产品负责人蔡玉婷现场介绍,百度输入法团队还针对网络不畅、无网络的情况,优化了输入法上嵌入式识别的Deep Peak2系统,大幅提升了离线语音识别准确率,让用户在地铁、电梯等地也可以不中断的使用语音输入,轻松搞定各种场景下的输入需求。目前,百度输入法的“离线语音”输入准确率已高于行业平均水平35%。

  而在技术层面上,百度语音技术部负责人高亮再次带来了语音识别技术的重大突破——“流式截断的多层注意力建模Streaming trancated multi-layer attention(SMLTA)”。传统的attention模型,无法做到在线语音交互的大规模实时服务,会引入较大的用户等待时间。而此次百度语音技术,在业界第一次创新性的提出的SMLAT技术,可实现层层递进的更精准的特征选择,使得语音识别的识别率超越传统的attention建模;同时,其计算速度和传统CTC技术持平,实现全CPU流量的大规模线上服务,这让百度输入法的“在线语音”相对准确率依然领先最优竞品15%。据悉,这项技术是全世界范围内,第一次基于attention技术的“在线语音识别服务”的大规模上线,标志着百度语音在线识别技术的世界领先,更是中文在线语音识别历史上的又一次突破!

  AR表情:秀场社区x丰富的表情创意

  如今用户的表达方式已不只局限在文字表达上,表情包成为网络社交中不可或缺的存在。2018年百度输入法发布会上亮相的“AR表情”功能受到了众多用户的喜爱,截止目前使用量突破1亿,20%的用户都使用并分享过AR表情。

  基于领先的人脸识别技术和 AR 技术,百度输入法今年又带来了更多AR表情的新玩法。“百度输入法 AI探索版”中不仅有能操控照片中人物或动物表情的“拍立活”功能;还有将人物置身于虚拟场景的“秀场”功能;并开辟了“表情秀”社区供用户分享自制的表情包作品,社区已经有多个明星、网红及民间高手入驻。

  在大会现场,凭借发际线红遍网络的表情达人“小吴”演示了AR表情的新功能“拍立活”。当他站在体验装置前,分别作出眨眼、惊讶和咧嘴笑等各种表情时,照片中的动物也被驱动着同步做出了相同表情。除了这样玩,“小吴”还在照片中叠加了“眉有办法”“锦鲤在此”“skr”等各种表情贴纸。AR表情将“小吴”超强的表现力生动再现于图片中,让现场观众连连鼓掌。

  动作识别:凌空手写 充满未来感的输入方式

  “百度输入法 AI探索版”中最具“未来感”的功能莫过于“凌空手写”,百度输入法技术负责人秦添也在发布会现场演示了这一功能。

  当他在空中手写下“凌空手写”四个字时,大屏幕上同步显示着一笔一划的输入轨迹,与轨迹转换成文字的过程。主持人张绍刚忍不住想尝试自己的名字,秦添又写出了“张绍刚”三个字,大屏幕再次显示着输入轨迹转换成字的过程。据百度输入法技术负责人秦添介绍,这项“凌空手写”来自全新的文字识别技术,不需要特殊的手写笔、深度摄像头或多目摄像头等硬件,最普通的RGB摄像头就可以完美支持。书写起来顺滑流畅,识别率也达到了大规模应用的要求。在“百度输入法 AI探索版”中,用户可以说“小度小度,打开凌空手写”来开启体验。

  “百度输入法 AI探索版”的语音输入、AR表情、手势识别刷新了公众对于“输入法”的认知,在AI技术的持续突破与赋能下,百度输入法还可以变得更聪明,先一步去探索全感官输入的2.0时代!

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

2019-01-16 18:42:00

相关文章