麻省理工新型AI技术融合了语音和物体识别技术
消息来源:baojiabao.com 作者: 发布时间:2026-05-18

本文由腾讯数码独家发布
麻省理工学院的研究人员已经创建了一个新的人工智能程序,它不仅能够同时识别图像和语音中的物体,而且还能积极地将两者结合起来,从而更有效地理解和利用两者。这个人工智能程序可以分析带有音频标题的图像,然后把这两个资源放在一起,然后找出哪个对象对应于标题的哪些部分。它在测试中通过突出显示图像区域和对象来演示这一点,而它们是由标题描述的。根据该项目的研究人员的说法,这比传统的语音识别或图像识别训练更自然、更有机。从本质上讲,人工智能正在像人类一样学习,这将使它更加灵活,从而在未来更有能力。
这个人工智能程序实际上是一个以前的模型的扩展,它能够将单词和短语与图像的主题集合相匹配,比如颜色和原型。该模型使用两个卷积神经网络,分别处理语音输入和图像输入,然后一个更高的层组合这些神经网络并构建关联。研究人员向模型展示了正确和不正确的关联,以帮助它学会识别或缺乏联系。
这个项目的意义是相当大的,而且是显而易见的。这一发现不仅可以在未来的模型中实现更快的语音识别和图像识别AI训练,还将为基于卷积神经网络的人工智能铺平道路,这种神经网络不仅在结构上模仿人类的大脑,而且在学习方法上也是如此。理论上,这将打开通往诸如人工智能与常识,知道它是不好开车的悬崖,或人工智能识别和适当应对人类情感,如知道一个哭泣的孩子可以通过做或说一些安慰孩子变成破涕为笑。改进的基于人工的翻译也是一种可能,因为人工智能有可能在同一时间内,在相同的材料上学习单词和其他语言的对等物,即使在没有足够的语言转录语言来进行传统的语音识别或翻译训练时也是如此。
来源:androidheadlines
相关文章
B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假 浮夸不能只罚酒三杯2023-02-17 18:46:15
华为mate20pro系列手机首发上市日期价格,屏幕和电池参数配置对比2023-02-17 18:42:49
小米MAX4手机上市日期首发价格 骁龙720打造大屏标准2023-02-17 18:37:22
武汉弘芯遣散!结局是总投资1280亿项目烂尾 光刻机抵押换钱2023-02-16 15:53:18
谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠2023-02-16 13:34:45
巴斯夫将裁员6000人 众化工巨头裁员潮再度引发关注2023-02-13 16:49:06
人手不足 韵达快递客服回应大量包裹派送异常没有收到2023-02-07 15:25:20
资本微念与李子柒销声匿迹谁赢? 微念公司退出子柒文化股东2023-02-02 09:24:38
三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办2023-01-24 10:10:02
华为Mate50 RS保时捷最新款顶级手机2022多少钱?1.2万元售价外观图片吊打iPhone142023-01-06 20:27:09
芯片常见的CPU芯片封装方式 QFP和QFN封装的区别?2022-12-02 17:25:17
华为暂缓招聘停止社招了吗?官方回应来了2022-11-19 11:53:50
热血江湖手游:长枪铁甲 刚猛热血 正派枪客全攻略技能介绍大全2022-11-16 16:59:09
东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?2022-10-22 15:21:55
苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次2022-10-03 22:13:45
苹果美版iPhone可以在中国保修 从哪看怎么查询iPhone的生产日期?2022-09-22 10:00:07










