【ICIP 2019直击】卷积神经网络之父Yann LeCun：自监督式学习更像人类学习，能突破现有深度学习的局限最新消息

卷积神经网络之父Yann LeCun，今天在全球影像处理会议（ICIP大会）上，揭露自监督学习的研究进程，同时也在演讲结束后，和与会者面对面探讨各类深度学习的议题，还很亲切的接受合照。

图片来源:

摄影/王宏仁

脸书AI研究院首席科学家、同时被誉为卷积神经网络之父的Yann LeCun，去年更获得素有电脑界诺贝尔奖之称的图灵奖（Turing Award）殊荣，终于在睽违两年后，今天再度来台，在汇聚全球顶尖人才的全球影像处理会议（ICIP大会）上，发表自监督学习（Self-supervised Learning，SSL）在深度学习领域的发展，不仅能用来预测文字片段，也已经初步应用在影片未来动态的预测，比如自驾车先预测周遭车辆的行驶轨迹，再决定接下来的行驶方向。

Yann LeCun认为，自监督学习能突破现有深度学习方法的局限。比如说，最广泛使用的监督式学习（supervised learning），是由人给定标记好的资料，让机器学习正确答案并作为推论根据。但是，这种学习方法是立基于人的标记，不仅资料标记过程需要花费大量时间与资源，机器也只能根据已标记的特征来学习，完成指定的任务，如语音转文字、分类图像、物件辨识等。

又比如强化学习（Reinforced Learning），是透过奖励与惩罚的机制，让机器在虚拟情境中不断试错（trial and error），累积经验来学习。这种学习方式虽然在竞技比赛里表现良好、甚至能胜过人类，但学习效率极低。举例来说，人类在15分钟内能领略的任一款Atari游戏，机器却平均要花83小时才能学会，在脸书研发的虚拟围棋游戏ELF OpenGo中，更要用2000个GPU训练14天，更别提要训练200年才学得会的星海争霸游戏（StarCraft）。

而且，强化学习并不能永远在虚拟场景训练，一旦进到真实世界，所有试错的过程将会带来高成本的代价。比如说，在自驾车了解前面是悬崖要转弯之前，可能需要先掉下去几百次，且不同于虚拟世界可以无间断的循环训练，在真实世界中花费的训练时间只会更长；更何况，人类学习过程只需极少数“试错”的过程，比如在看到前方的悬崖之后，常识就会使我们转弯。

对此，Yann LeCun认为，自监督学习能解决这个问题。比起强化学习是从试错的经验中学习，自监督学习是建构一个庞大的神经网络，透过预测来认识世界。换句话说，自监督学习所训练的模型，能借由观察过去、当下所有的训练资料，来预测下一刻会发生的事情，因此，在预测到车子将会摔落悬崖时，就能提前转弯来避免。“就像人类是不断透过已知的部分来预测未知，看到一半的人脸会自动在脑海补足另一半画面，所以自监督学习是更接近人类学习行为的方法。”

影片、声音等高维度连续资料的预测仍为自监督学习的挑战

要更详细的解释自监督学习之前，Yann LeCun先举例解释人类的学习行为。如果在一个5个月大的小婴儿面前，展示一辆漂浮在空中的玩具车，从零开始学习的婴儿只会觉得，这就是这个世界运行的方式；然而，如果在一个两岁的孩童面前这么做，孩子将会很惊讶，因为他已经透过长期的观察，在脑海里形成一套常识，虽然他孩无法理解“地心引力”这个名词，却知道玩具车不该漂浮在空中。

小婴儿随着年龄会经历不同阶段的学习。

也就是说，“人类大部分是透过观察来学习，少部分才是靠互动交流。”而自监督式学习，也是透过观察，从现有训练资料中的任何部分来学习，去预测未知的部分，而且学习过程中并不仰赖人类给定的标签。Yann LeCun表示，不管是从过去的资料预测现在或未来、从近期的资料预测未来或过去、或从同一时间下的其他资料预测缺失的部分等，都能运用自监督学习来完成。

Yann LeCun也进一步以蛋糕，来比喻上述提到的三种学习方法，所能预测的资料量。其中，以强化学习能预测的资料最少，是基于奖励才能做出少量正确的预测，就像蛋糕上的樱桃；而监督式学习的预测资料量，是取决于人类提供的标记资料，一个样本能回馈10-10,000 bits不等的讯息，像是蛋糕的表层；但是自监督式学习，则是给多少资料，就有多少资料能观察，一个样本能产生上百万bits的预测回馈，就像整个蛋糕本身，这是其他学习方法所不能及的。

此外，在应用方面，自监督式学习目前在自然语言处理（NLP）的应用颇有成效。比如去年Google对外开源了用于自然语言预训练的新技术BERT（Bidirectional Encoder Representations from Transformers），能在一个挖空15%内容的句子中，预测字汇并填空；其他相关的应用，还包括Word2vec、FastText、Cloze-Driven Auto-Encoder等文本内容处理模型。

除了NLP，图像的填空是更具挑战性的任务，但现在也已经能够过拼图与着色问题的解法来预测。因为自监督式学习适合用来预测具有离散分布（discrete distribution）特性的资料，所以在着色的部分，就能运用离散分布的方式，将颜色量化为较少数量的颜色种类，再挑选出可能代表该位置的颜色来着色；而拼图问题则是能用基本的分类问题解法，先对资料的特征进行训练，再进行预测。

但是，自监督学习在影片或声音识别的领域却不如预期。这是因为动态的影像与声音资料，都是属于高维度的连续性（High-dimensional Continuous）资料，很难参数化（parametrize）其可能的离散分布，在这个情况下，就时常预测出含有多种可能性的结果。对此，Yann LeCun提出一个架构，要建构出世界模拟器（world simulator）模型，来预测现实环境将会因为每个决策产生什么改变，再客观的去衡量哪一种决策更有利。

对于自监督学习在影片预测的成效，Yann LeCun也提出一个研究案例。在一段高速公路的车流影片中，针对其中一辆车的行进路线进行测试，来检视自监督学习模型，是否能借由预测自驾车周遭车辆的行驶轨迹，来估算接下来的行驶方向与速度，测试过程中也保留原始的车辆，另外模拟出一辆不存在的自驾车，来对比两辆车的行进路线差异。而这个模型也证实了动态影像预测的可行性。

黄色的是原本车辆，蓝色的是虚拟自驾车。

对于AI的发展，Yann LeCun认为，现今的深度学习方法，虽然能带给人类新科技的应用，如自驾车、医疗影像分析、语言翻译、聊天机器人等，却无法创造出“真正的”人工智能，也就是具备常识、聪明、敏捷且灵活的机器人。不过他也认为，“尽管机器学习系统仍有局限，但自监督学习可能是个解方，甚至在未来建构出拥有人类常识的机器人（Human Level Intelligence）。”而接近人类学习行为的自监督学习方法，就是实现这个理想的第一步。