亚马逊科学家将人工智能助理日常化的梦想照进现实
消息来源:baojiabao.com 作者: 发布时间:2026-05-09

“我觉得有些奇怪,你看上去就像真人,但其实只是电脑发出的声音。”
“我能理解你作为一个正常人,在洞察力方面的局限性,你会习惯的。”
——《Her》
2013年,一部美国电影《Her》将人们带入了人类与AI的交互时空,讲述了未来世界,主人公Theodore和Samantha(人工智能系统OS1)间带了几分科幻底色的奇异爱情。电影中的Samantha同现今常见的人工智能助手一样,没有常规意义上的“身体”、气味、乃至触觉嗅觉这样的人类特质,他们彼此单纯依靠对话交流,因而有评论称这更像是“两个声音的爱情故事”。从技术角度来看,我们更习惯称之为“语音交互”——这是一种人机交互方式,即利用人类的自然语言给机器下命令,从而达到自身目的的过程,多被视作“下一代人机交互界面的主要功能”。
事实上,语音交互技术一直以来都是人工智能赖以实现人机交互的重要途径,更是近年来国内外各大厂争相抢占的市场方向。诸多人工智能学者长期致力于让机器“听懂”外界所传达出的信息并做出相应的反馈,识别对象跨越自然语言与情感信息,涉及拾音、语音识别、语义理解,语音合成等方面的技术要求,无疑是个极为复杂的过程。
语音交互主要分为近场交互和远场交互。近场语音交互主要是指人类距离机器不超过30厘米范围的语音识别技术,因其利用距离优势回避了真实场景下复杂的声学问题,而被广泛理解为一种“实验室理想环境下的语音交互技术”。人们对近场语音识别的研究可追溯到上个世纪,但发展初期始终不得其法。90年代末,IBM推出了第一款商品化的语音识别系统ViaVoice,业界更是开始发出下一代语音交互界面的呼声,然而过程中的颇多尝试最终都以失败告终。
2011年,手机语音助手Siri搭载iPhone4S成功发布,在全球范围内引发强烈关注;2014年,微软于Windows 8的发布会上正式推出Cortana……至此,近场语音交互开始广泛走入公众视野,一路行至今天,已然日趋成熟,例如国内较具代表性的几款语音输入,其识别准确率已高达95%。但在最初的新鲜感褪去之后,很多用户发现这一功能就像嚼过的甘蔗一般仅余噱头二三,甚是鸡肋。即使在近场语音识别高度发展的今天,其在实际场景的应用中仍多逢壁垒。由此,越来越多的研究将目光投注至远场语音识别技术。
远场语音识别是指在较远的距离条件下(通常是1m-10m),机器对语音加以识别的技术。该技术一般采用麦克风阵列的方式收集语音,广泛运用于智能家居、车载导航、会议转录等场景。较之理想化情境下的近场语音识别,远场识别更容易受到真实环境中的背景噪声、多径反射和混响,乃至人声的干扰,远场语音识别因此在准确率方面也会有大幅下降。远场语音识别系统通常包含前端信号处理与后端语音识别模块。前端部分旨在通过语音增强的手段,包括解混响(Dereverberation)、波束成形(Beam Forming)等方法来将含有噪声和混响的语音尽可能地处理“干净”;后端部分与一般的语音识别系统相同,目的在于将处理“干净”的语音识别为文字。
2014年,亚马逊发布智能音箱Echo,正式拉开了远场语音交互的帷幕,更有评论称其“打开了物联网的重要入口,已然成为行业标杆一般的存在”。如今,Echo能够依靠语音助手Alexa实现音乐播放、新闻搜索、外卖网购下单、在线叫车等一系列服务,在全球范围内已累积千万销量。近年来,正是由于智能音箱可借由语音交互提供内容服务、互联网服务,以及场景化的家居控制能力,国内外巨头在手机热之后,纷纷投身智能音箱市场,加紧不局,力求在一片混战中分一杯羹。
据CNBC 9 月19日报道,Amazon计划于今年年底之前,推出至少8款由Alexa支持的交互新设备,包括微波炉、车载设备和高端家用音响设备(包括扩音器、接收器和低音炮)等,其中部分设备将直接搭载语音助手功能,意在继续攻坚智能家居市场。但很显然,智能语音服务的未来并不会止步于此,今日的科幻终将照进现实。
作为亚马逊Senior Principal Scientist、Alexa & Echo技术负责人及团队初创成员,Nikko Str?m拥有资深的语音技术背景,曾就职于多家世界著名的研究实验室和企业,拥有20年的自动语音识别领域工作经验。在麻省理工学院计算机科学实验室担任科学研究员两年后,Nikko Str?m于2000年加入语音初创企业Tellme Networks,并于2007年转入微软核心语音识别团队,推动最新技术的发展。2011年,他进入Amazon,担任Senior Principal Scientist,领导语音识别及相关领域的深度学习团队,继而成为Amazon Echo团队的创始成员之一。
1997年,Nikko Str?m在位于斯德哥尔摩的KTH语音通信实验室攻取博士学位,期间所撰论文为说话人自适应(Speaker Adaptation)和人工神经网络(Artificial Neural Network)这两个技术领域做出了重要贡献。
作为论文工作的一部分,Nikko Str?m开发了世界上第一个瑞典语连续语音识别器。同时,他还发布了开源人工神经网络软件(NICO Toolkit),并在全球收获了数千名研究人员的下载。
1994年至1995年期间,他曾任日本京都国际电气通信基础技术研究所(ATR)的特邀嘉宾研究员,在这里,他为说话人自适应领域的世界级研究做出了颇多贡献。
作为业余爱好,他还开发并发布了“Quite BASIC”(http://www.quitebasic.com/),一个完全基于网络的经典培基(BASIC)在线编程环境。
……
很快,在人工智能领域深耕多年的Nikko Str?m就要来到中国和广大AI开发者见面啦——11月8-9日,2018 AI开发者大会(AI NEXTCon)将于北京盛大召开。
作为由中国专业的IT社区CSDN与硅谷AI社区AICamp联合出品的AI技术与产业年度盛会,本次大会将邀请到近百位中美顶尖AI专家、知名企业代表以及千余名AI开发者齐聚北京,进行技术解读和产业论证。这也是继西雅图、硅谷、纽约等城市成功举办五届后,AI NEXTCon首次进入中国。Nikko Str?m将在大会上结合Amazon Alexa为大家讲解其中蕴含的深度学习奥义。
10月12日前购买早鸟票,立享5折优惠!详情请登录大会官网:https://bss.csdn.net/m/topic/ai_nextcon/index
相关文章
B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假 浮夸不能只罚酒三杯2023-02-17 18:46:15
华为mate20pro系列手机首发上市日期价格,屏幕和电池参数配置对比2023-02-17 18:42:49
小米MAX4手机上市日期首发价格 骁龙720打造大屏标准2023-02-17 18:37:22
武汉弘芯遣散!结局是总投资1280亿项目烂尾 光刻机抵押换钱2023-02-16 15:53:18
谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠2023-02-16 13:34:45
巴斯夫将裁员6000人 众化工巨头裁员潮再度引发关注2023-02-13 16:49:06
人手不足 韵达快递客服回应大量包裹派送异常没有收到2023-02-07 15:25:20
资本微念与李子柒销声匿迹谁赢? 微念公司退出子柒文化股东2023-02-02 09:24:38
三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办2023-01-24 10:10:02
华为Mate50 RS保时捷最新款顶级手机2022多少钱?1.2万元售价外观图片吊打iPhone142023-01-06 20:27:09
芯片常见的CPU芯片封装方式 QFP和QFN封装的区别?2022-12-02 17:25:17
华为暂缓招聘停止社招了吗?官方回应来了2022-11-19 11:53:50
热血江湖手游:长枪铁甲 刚猛热血 正派枪客全攻略技能介绍大全2022-11-16 16:59:09
东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?2022-10-22 15:21:55
苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次2022-10-03 22:13:45
苹果美版iPhone可以在中国保修 从哪看怎么查询iPhone的生产日期?2022-09-22 10:00:07










