打破技术与应用寒冬，深度学习掀起人工智能新浪潮最新消息

深度学习技术是一种人工神经网络，是从脑神经科学获得启发，效法神经元的多层次学习网络，在图像辨识上先将图片分解成许多小像素，透过好几层的处理，以撷取、结合特征，最后对图像中的物件提出预测。

图片来源:

iThome

在2016年3月12日，AlphaGo围棋程式迎战世界冠军韩国棋手李世石，来到了第三局，这一天全世界都在关注这场人类史上最关键的人机大战，因为前两局已经被AlphaGo取得胜利，第三局将是决定人工智能能否战胜人类的关键。

围棋堪称是最复杂的棋赛，如果连最复杂的围棋都输给了电脑，那么人类智慧最后的堡垒失守了，不免令人担心电影电脑主宰人类的场景似乎也不远了。然而就在众所瞩目下，AlphaGo又赢了第三局，确定这场世纪人机大战由计算机程序获胜。这场比赛规定下满五局，虽然在接下来的第四局中，李世石以一子妙棋赢得首胜，但最终仍是一比四输给了AlphaGo。

经此一役，世人对于人工智能有了不同的认识，AI不再被认为只是电影里的科幻情节，已经发生在我们的生活周遭；而AlphaGo背后的人工智能关键技术——深度学习（Deep Learning），也从原本只是学术研究领域的专业名词，摇身成为街头巷尾热议的话题。

事实上，深度学习是近年来人工智能领域当红的技术，这项结合资讯科学、数学与脑神经科学的技术，运用在图像、语音辨识及自然语言处理，拥有超过9成的高度准确率，使得沉寂了数十年的人工智能再次复兴。

深度学习打破人工智能的寒冬

人工智能最早的研究可追溯至1950年代，然而在之后的数十年中，在技术与应用上却未见突破性进展，使得人工智能的应用处于停滞的寒冬期，直到2012年的一场全球图像辨识分类比赛——ImageNet，得奖队伍的结果出炉后，才宣告人工智能终于从寒冬中复苏。

ImageNet竞赛的2012年冠军，是由加拿大多伦多大学教授Geoff Hinton领军的研究团队，以深度学习技术写下图片辨识率达85％的新纪录，而在前一届2010年的竞赛中，辨识率最高仅72％，也就是说，人工智能技术在图像辨识的错误率，在短短两年内，就从28％大幅降低至15％，这不仅让诸多研究者看到深度学习的技术潜力，也让处于寒冬数十载的人工智能迎来曙光。

为何ImageNet竞赛的结果对人工智能的发展如此重要？在这项比赛里面，提供了两组图片，其中一组是数百万张含有内容注解的图片，例如鸟、挂勾等各式各样的物体，由研究者先以这些包含标签的大量图片去训练算法，之后再以另一组不含标签的图片来检验算法的辨识准确度。这些图片由人类来辨识的结果，平均准确率达到95％。

人工神经网络重新站上舞台

Geoff Hinton之所以能让图片辨识率有大幅进展，主要关键是研发的深层学习网络——Convolutional Neural Networks（CNN），这项技术是由脑神经网络获得启发，将神经元的运作原理套用到电脑视觉（Computer Vision）领域。

人类的脑神经是由许多神经元组成，每个神经元虽然构造简单，只能接收简单的讯号，但有意思的是神经元会将其讯号传递给其他的神经元，一个神经元会被其他神经元传递的讯号所触发，再结合其讯号后转发给其他的神经元，如此形成一个庞大的讯息处理网络，人脑因而能够应付复杂的讯号。

而深度学习技术在图像辨识的运用，即模仿了视神经的运作。因为，人类具有极佳的图像辨识能力，即便是幼儿都能轻易分辨不同的物体，但要让电脑拥有图像辨识能力则相当困难。所幸，研究者找到视神经的运作方式，发现人类的视神经擅于分辨物体的边界，透过对边界的认识，再逐步组合出图像识别。

于是，深度学习的做法是先将图片分解成许多小像素，做为深度学习网络的第一层输入资料，再经过多层次的算法处理，从个别像素撷取特征、组合特征，至于最后的输出层结果，则是深度学习算法辨识出的图片主要特征。

其实，Geoff Hinton早在1998年就提出了CNN的理论，但直到2012年的ImageNet才让CNN一战成名，因为深度学习还有两个关键的要素，是在2009年之后才逐渐到位。

其一，是深度学习需要大量资料来训练算法模型，例如图片辨识往往需要数百万张图片来训练模型，以找出算法最合适的权重参数，达到最佳的准确率。而随着互联网在2000年后风行，研究者终于得以从互联网取得大量图片，来训练出最好的深度学习模型。

大资料、云端运算、GPU为深度学习添翼

另一个让深度学习技术大展长才的关键，在于运算资源的瓶颈能否突破。

人工神经网络技术发展的初期，由于缺乏庞大的运算能力，无法建立多层运算网络，所以，影响了最后输出结果的准确度，以至于人工智能被认为仅是科幻情节，距离实用仍太远。然而，自2009年开始，电脑运算技术有了不同的转变，一方面是云端运算技术逐渐成熟，透过分散式运算技术所建构的云端运算架构，几乎可说是提供源源不绝的运算量；另一方面，则是研究者有了重大发现，他们看到原本给游戏玩家使用的GPU绘图卡，若用于深度学习算法的运算，可获得10倍以上的效能提升。

在大量的学习资料以及庞大的运算资源，都已不构成问题之后，相继投入深度学习技术的研究者与厂商就越来越多，使得深度学习成为当今人工智能的显学。也因此，ImageNet竞赛自2012年之后，几乎全是深度学习技术的天下，包括2014年的冠军——Google Brain、2015年的冠军——微软，都是基于深度学习技术。

深度学习超越人类

现在，深度学习技术的发展，已经不再只是学术领域的议题，更是Google、微软、Facebook、Amazon等科技大公司积极投入研发的领域。也就在产学相互学习与竞争之下，近几年深度学习技术可谓突飞猛进，深度学习不只是下棋赢过人类，在脸部辨识、物体识别及手写文字辨识，皆已超越人类的水准。

例如，ImageNet竞赛在2012年以75％的辨识率，树立了深度学习技术的新里程碑，而时至今日，在2015年ImageNet竞赛中，微软的深度学习技术首度以96％的准确率，超越人类的水准，而在微软建构的深度学习网络当中，竟然使用了多达152层的超级深层网络，与前一年参赛队伍普遍使用的20至30层的网络架构相比，复杂度是呈等比级数。

深度学习不仅在图像辨识超越人类，甚至连难度极高的中文手写辨识，深度学习技术的准确率也已经高于人类。富士通在2015年就发表其中文手写文字辨识的准确率，已达到96.7％，首度超越人类平均辨识准确率96.1％的水准。

回顾更早之前，富士通的中文手写文字辨识技术于2013年的全球文件分析与辨识研讨会（ICDAR）发表时，辨识准确率已经达到94.8％，但还达不到人类平均的水准。为了进一步提升辨识率，富士通一方面扩大深度学习网络的深度，也就是增加人工神经网络的层数。在前一代技术中，富士通建构的学习网络有280万个节点，新一代技术则大举扩充至1亿5千万个节点。

另一方面，则需要有更多的手写文字来训练深度学习模型，然而要搜集大量的手写文字并非易事，于是富士通研发人员开发出一套文字变体系统，产出大量手写文字的变体，以此大量反复训练深度学习模型，终于写下中文手写文字辨识率超越人类的纪录。

运用深度学习技术的中文手写辨识准确率超越人类