APP下载

打破技术与应用寒冬,深度学习掀起人工智能新浪潮

消息来源:baojiabao.com 作者: 发布时间:2024-05-05

报价宝综合消息打破技术与应用寒冬,深度学习掀起人工智能新浪潮

深度学习技术是一种人工神经网络,是从脑神经科学获得启发,效法神经元的多层次学习网络,在图像辨识上先将图片分解成许多小像素,透过好几层的处理,以撷取、结合特征,最后对图像中的物件提出预测。

图片来源: 

iThome

在2016年3月12日,AlphaGo围棋程式迎战世界冠军韩国棋手李世石,来到了第三局,这一天全世界都在关注这场人类史上最关键的人机大战,因为前两局已经被AlphaGo取得胜利,第三局将是决定人工智能能否战胜人类的关键。

围棋堪称是最复杂的棋赛,如果连最复杂的围棋都输给了电脑,那么人类智慧最后的堡垒失守了,不免令人担心电影电脑主宰人类的场景似乎也不远了。然而就在众所瞩目下,AlphaGo又赢了第三局,确定这场世纪人机大战由计算机程序获胜。这场比赛规定下满五局,虽然在接下来的第四局中,李世石以一子妙棋赢得首胜,但最终仍是一比四输给了AlphaGo

经此一役,世人对于人工智能有了不同的认识,AI不再被认为只是电影里的科幻情节,已经发生在我们的生活周遭;而AlphaGo背后的人工智能关键技术——深度学习(Deep Learning),也从原本只是学术研究领域的专业名词,摇身成为街头巷尾热议的话题。

事实上,深度学习是近年来人工智能领域当红的技术,这项结合资讯科学、数学与脑神经科学的技术,运用在图像、语音辨识及自然语言处理,拥有超过9成的高度准确率,使得沉寂了数十年的人工智能再次复兴。

深度学习打破人工智能的寒冬

人工智能最早的研究可追溯至1950年代,然而在之后的数十年中,在技术与应用上却未见突破性进展,使得人工智能的应用处于停滞的寒冬期,直到2012年的一场全球图像辨识分类比赛——ImageNet,得奖队伍的结果出炉后,才宣告人工智能终于从寒冬中复苏。

ImageNet竞赛的2012年冠军,是由加拿大多伦多大学教授Geoff Hinton领军的研究团队,以深度学习技术写下图片辨识率达85%的新纪录,而在前一届2010年的竞赛中,辨识率最高仅72%,也就是说,人工智能技术在图像辨识的错误率,在短短两年内,就从28%大幅降低至15%,这不仅让诸多研究者看到深度学习的技术潜力,也让处于寒冬数十载的人工智能迎来曙光。

为何ImageNet竞赛的结果对人工智能的发展如此重要?在这项比赛里面,提供了两组图片,其中一组是数百万张含有内容注解的图片,例如鸟、挂勾等各式各样的物体,由研究者先以这些包含标签的大量图片去训练算法,之后再以另一组不含标签的图片来检验算法的辨识准确度。这些图片由人类来辨识的结果,平均准确率达到95%。

人工神经网络重新站上舞台

Geoff Hinton之所以能让图片辨识率有大幅进展,主要关键是研发的深层学习网络——Convolutional Neural Networks(CNN),这项技术是由脑神经网络获得启发,将神经元的运作原理套用到电脑视觉(Computer Vision)领域。

人类的脑神经是由许多神经元组成,每个神经元虽然构造简单,只能接收简单的讯号,但有意思的是神经元会将其讯号传递给其他的神经元,一个神经元会被其他神经元传递的讯号所触发,再结合其讯号后转发给其他的神经元,如此形成一个庞大的讯息处理网络,人脑因而能够应付复杂的讯号。

深度学习技术在图像辨识的运用,即模仿了视神经的运作。因为,人类具有极佳的图像辨识能力,即便是幼儿都能轻易分辨不同的物体,但要让电脑拥有图像辨识能力则相当困难。所幸,研究者找到视神经的运作方式,发现人类的视神经擅于分辨物体的边界,透过对边界的认识,再逐步组合出图像识别。

于是,深度学习的做法是先将图片分解成许多小像素,做为深度学习网络的第一层输入资料,再经过多层次的算法处理,从个别像素撷取特征、组合特征,至于最后的输出层结果,则是深度学习算法辨识出的图片主要特征。

其实,Geoff Hinton早在1998年就提出了CNN的理论,但直到2012年的ImageNet才让CNN一战成名,因为深度学习还有两个关键的要素,是在2009年之后才逐渐到位。

其一,是深度学习需要大量资料来训练算法模型,例如图片辨识往往需要数百万张图片来训练模型,以找出算法最合适的权重参数,达到最佳的准确率。而随着互联网在2000年后风行,研究者终于得以从互联网取得大量图片,来训练出最好的深度学习模型。

大资料、云端运算、GPU为深度学习添翼

另一个让深度学习技术大展长才的关键,在于运算资源的瓶颈能否突破。

人工神经网络技术发展的初期,由于缺乏庞大的运算能力,无法建立多层运算网络,所以,影响了最后输出结果的准确度,以至于人工智能被认为仅是科幻情节,距离实用仍太远。然而,自2009年开始,电脑运算技术有了不同的转变,一方面是云端运算技术逐渐成熟,透过分散式运算技术所建构的云端运算架构,几乎可说是提供源源不绝的运算量;另一方面,则是研究者有了重大发现,他们看到原本给游戏玩家使用的GPU绘图卡,若用于深度学习算法的运算,可获得10倍以上的效能提升。

在大量的学习资料以及庞大的运算资源,都已不构成问题之后,相继投入深度学习技术的研究者与厂商就越来越多,使得深度学习成为当今人工智能的显学。也因此,ImageNet竞赛自2012年之后,几乎全是深度学习技术的天下,包括2014年的冠军——Google Brain、2015年的冠军——微软,都是基于深度学习技术。

深度学习超越人类

现在,深度学习技术的发展,已经不再只是学术领域的议题,更是Google、微软、Facebook、Amazon等科技大公司积极投入研发的领域。也就在产学相互学习与竞争之下,近几年深度学习技术可谓突飞猛进,深度学习不只是下棋赢过人类,在脸部辨识、物体识别及手写文字辨识,皆已超越人类的水准。

例如,ImageNet竞赛在2012年以75%的辨识率,树立了深度学习技术的新里程碑,而时至今日,在2015年ImageNet竞赛中,微软的深度学习技术首度以96%的准确率,超越人类的水准,而在微软建构的深度学习网络当中,竟然使用了多达152层的超级深层网络,与前一年参赛队伍普遍使用的20至30层的网络架构相比,复杂度是呈等比级数。

深度学习不仅在图像辨识超越人类,甚至连难度极高的中文手写辨识,深度学习技术的准确率也已经高于人类。富士通在2015年就发表其中文手写文字辨识的准确率,已达到96.7%,首度超越人类平均辨识准确率96.1%的水准。

回顾更早之前,富士通的中文手写文字辨识技术于2013年的全球文件分析与辨识研讨会(ICDAR)发表时,辨识准确率已经达到94.8%,但还达不到人类平均的水准。为了进一步提升辨识率,富士通一方面扩大深度学习网络的深度,也就是增加人工神经网络的层数。在前一代技术中,富士通建构的学习网络有280万个节点,新一代技术则大举扩充至1亿5千万个节点。

另一方面,则需要有更多的手写文字来训练深度学习模型,然而要搜集大量的手写文字并非易事,于是富士通研发人员开发出一套文字变体系统,产出大量手写文字的变体,以此大量反复训练深度学习模型,终于写下中文手写文字辨识率超越人类的纪录。

 运用深度学习技术的中文手写辨识准确率超越人类 

以深度学习手法辨识文字的流程

辨识图像文字是人类的天生能力,不需特别学习就能学会,但要教会计算机程序辨识图像文字,却是一件很困难的事。深度学习技术效法视神经的运作原理,借镜人类视觉会先辨识物体边界的方法,先针对影像做影像处理,强化边界,再逐一分解影像,从中寻找特征。

扩增深度学习网络的层数

为了进一步提升中文手写文字辨识率,富士通为深度学习网络增加更多层数,其网络的节点由280万个大幅扩充至1亿5千万个,辨识率也因此获得大幅进度,超越了人类的文字辨识水准。

以文字变体技术增加训练资料

深度学习技术提升准确率的一个重要手法,是增加更大量的训练资料,以优化深度学习模型,然而,要搜集大量中文手写文字,并不容易,于是富士通的研究人员特别开发一套文字变体技术,以增加第3轴灰度值的方式,可快速产生更多样的变体文字。

人工智能挑战大学升学考试

在研究人员前仆后继投入研发之下,人工智能技术在特定的领域都发展出近于人类的能力。人工智能不仅对图片、文字辨识的应用拿手,也将能用于考上大学。由日本国立情报学研究所、名古屋大学与富士通共同研发的“东大机器人”专案,正在尝试以人工智能技术让电脑考上东京大学。

东大机器人首先挑战的是日本大学入学考试的数学科,研发人员借助深度学习技术在自然语言处理的优势,将考题的文字与数学公式转换成计算机程序可理解的形式,再透过代数解题程式求解。而在2013年东京大学入学考式预试实测下,东大机器人在人文组数学考题的四题中,答对了两题,在理工组数学考题的六题中,也答对两题。

相关报导请参考“富士通AI前进企业”

2018-01-25 20:25:00

相关文章