AI可以识别图像但它能理解标题吗?
消息来源:baojiabao.com 作者: 发布时间:2026-04-20

2012年,人工智能研究人员发现,通过向一个名为ImageNet的数据库提供数以百万计的标签图像,计算机识别图像的能力会有很大的提高。这使得计算机视觉进入了一个激动人心的阶段,因为很明显,使用ImageNet训练的模型可以帮助解决各种图像识别问题。六年后,这种进步为自动驾驶汽车在城市街道上导航铺平了道路,并且使得Facebook用户可以在照片中对人物进行智能标记。
然而,在人工智能研究的其他领域,比如理解语言方面,类似的模型则被证明是难以实现的。但是,来自fast.ai、OpenAI和艾伦研究所(Allen Institute)的最新研究表明,这是一个潜在的突破点,有更强大的语言模型可以帮助研究人员解决一系列尚未解决的问题。其中一种新模型背后的研发人员塞巴斯蒂安鲁德(Sebastian Ruder)称其为该领域的“ImageNet时刻”。
这些改进可能是戏剧性的。到目前为止,被最广泛测试的语言模型是ELMo(Embeddings from Language Models)。今年春天,当艾伦研究所发布ELMo的时候,以往的各种挑战迅速被颠覆了,比如在阅读理解方面,人工智能回答了关于一段文章的SAT式的问题并进行了情绪性分析。在一个进步往往是渐进的领域,ELMo的加入使得结果的正确率提高了25%。今年6月,这项进步在一次大型会议上获得了最佳论文奖。
加州大学伯克利分校的计算机科学教授丹克莱因(Dan Klein)是早期采用者之一。他和一名学生正在研究一个“选区解析器”,这是一种基本的工具,它涉及到对句子的语法结构进行映射。ELMo的加入使得克莱因突然拥有了世界上最好的系统,最精确的同时拥有惊人的宽限度。他说:“如果你几年前问我,是否有可能性达到这么高的水平,我并不能确定。”
像ELMo这样的模型,解决了一个使用语言的语言学家的核心问题:缺乏标签的数据。为了训练一个神经网络能够做决定,许多语言问题都需要人工来精心标记数据。但是,制作这些数据需要时间和金钱,甚至很多信息也无法捕捉到我们说话和写作中不可预测的方式。对于除英语以外的语言,研究人员通常没有足够的标记数据来完成基本的任务。
“我们永远无法获得足够的标签数据,”艾伦研究所ELMo项目团队领导者的研究人员马修彼得斯(Matthew Peters)说。“我们真的需要开发出一种模型,它可以处理杂乱的、没有标签的数据,并且从中学习到尽可能多的信息。”
幸运的是,多亏了互联网,研究人员得以从维基百科、书籍和社交媒体等来源获得了大量的杂乱数据。我们的策略是将这些词输入到一个神经网络中,并允许它自己识别模式,即所谓的“无监督”方法。我们希望这些模式能够捕捉到语言的一些基本方面——一种单词的含义,或者是语法的基本轮廓。与使用ImageNet训练的模型一样,这样的语言模型可以被精确地调整以掌握更具体的任务——比如总结一篇科学文章,将电子邮件归类为垃圾邮件,甚至为一个简短的故事生成一个令人满意的结尾。
这种直觉基础并不新鲜。近年来,研究人员利用一种叫做“文字嵌入(word embeddings)”的技术来深入研究无标签的数据,这一技术可以根据它们在大量文本中出现的方式来映射单词之间的关系。新模式的目标定位到更深层,捕捉从文字到更高层次的语言概念的信息。鲁德已经写过关于这些更深层次的模型对各种语言问题而言的巨大潜力,希望新模型能成为简单的“单词嵌入”的替代品。
例如,ELMo通过整合更多的上下文,以句子的规模来看待语言,而不是辞汇,从而改进了单词的嵌入。这种额外的上下文使模型能够很好地解析“May”作为“五月”和动词之间的区别,也意味着它学习了语法。ELMo通过理解单词的子单元,如前缀和后缀,来获得额外的提升。像彼得斯的团队所做的那样,为神经网络提供十亿个单词,而这种方法是非常有效的。
目前还不清楚的是,在分析所有这些词的过程中,这个模型到底学到了什么。由于深度神经网络的工作方式不透明,所以要回答这个问题十分棘手。研究人员仍然对图像识别系统工作如此出色的原因有一个模糊的理解。在10月份的一次会议上,彼得斯采用了一种经验主义的方法,在不同的软件设计和不同的语言任务中试验了ELMo。彼得斯说:“我们发现这些模型学习了语言的基本属性。”但他警告说,其他研究人员将需要测试ELMo,以确定该模型在不同任务中的稳健程度,以及它可能包含的隐藏意外情况。
一种风险是:用于训练它们的数据出现了编码偏差,因而医生被贴上男性的标签,而护士则是女性,就像之前的文字嵌入一样。克莱因说,虽然通过点击ELMo和其他模型产生的最初结果令人兴奋,但目前还不清楚这些结果可以被推进到什么程度,也许是通过使用更多的数据来训练模型,或者增加一些限制,迫使神经网络更有效地学习。从长远来看,的要让人工智能像我们这样流畅地阅读和交谈,可能需要一种全新的方法。
科普百分百·助力科普中国,让科学知识在网上和生活中流行起来。温馨提示:以上为科普百分百网上阅读所浏览内容,转载分享只为知识传播和学习宣传,本文内容仅代表原作者观点,如有意见建议,请私信留言,我们会及时处理。欢迎关注,谢谢。
相关文章
B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假 浮夸不能只罚酒三杯2023-02-17 18:46:15
华为mate20pro系列手机首发上市日期价格,屏幕和电池参数配置对比2023-02-17 18:42:49
小米MAX4手机上市日期首发价格 骁龙720打造大屏标准2023-02-17 18:37:22
武汉弘芯遣散!结局是总投资1280亿项目烂尾 光刻机抵押换钱2023-02-16 15:53:18
谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠2023-02-16 13:34:45
巴斯夫将裁员6000人 众化工巨头裁员潮再度引发关注2023-02-13 16:49:06
人手不足 韵达快递客服回应大量包裹派送异常没有收到2023-02-07 15:25:20
资本微念与李子柒销声匿迹谁赢? 微念公司退出子柒文化股东2023-02-02 09:24:38
三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办2023-01-24 10:10:02
华为Mate50 RS保时捷最新款顶级手机2022多少钱?1.2万元售价外观图片吊打iPhone142023-01-06 20:27:09
芯片常见的CPU芯片封装方式 QFP和QFN封装的区别?2022-12-02 17:25:17
华为暂缓招聘停止社招了吗?官方回应来了2022-11-19 11:53:50
热血江湖手游:长枪铁甲 刚猛热血 正派枪客全攻略技能介绍大全2022-11-16 16:59:09
东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?2022-10-22 15:21:55
苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次2022-10-03 22:13:45
苹果美版iPhone可以在中国保修 从哪看怎么查询iPhone的生产日期?2022-09-22 10:00:07










