APP下载

【ICIP 2019直击】卷积神经网络之父Yann LeCun:自监督式学习更像人类学习,能突破现有深度学习的局限

消息来源:baojiabao.com 作者: 发布时间:2024-05-14

报价宝综合消息【ICIP 2019直击】卷积神经网络之父Yann LeCun:自监督式学习更像人类学习,能突破现有深度学习的局限

卷积神经网络之父Yann LeCun,今天在全球影像处理会议(ICIP大会)上,揭露自监督学习的研究进程,同时也在演讲结束后,和与会者面对面探讨各类深度学习的议题,还很亲切的接受合照。

图片来源: 

摄影/王宏仁

脸书AI研究院首席科学家、同时被誉为卷积神经网络之父的Yann LeCun,去年更获得素有电脑界诺贝尔奖之称的图灵奖(Turing Award)殊荣,终于在睽违两年后,今天再度来台,在汇聚全球顶尖人才的全球影像处理会议(ICIP大会)上,发表自监督学习(Self-supervised Learning,SSL)在深度学习领域的发展,不仅能用来预测文字片段,也已经初步应用在影片未来动态的预测,比如自驾车先预测周遭车辆的行驶轨迹,再决定接下来的行驶方向。

Yann LeCun认为,自监督学习能突破现有深度学习方法的局限。比如说,最广泛使用的监督式学习(supervised learning),是由人给定标记好的资料,让机器学习正确答案并作为推论根据。但是,这种学习方法是立基于人的标记,不仅资料标记过程需要花费大量时间与资源,机器也只能根据已标记的特征来学习,完成指定的任务,如语音转文字、分类图像、物件辨识等。

又比如强化学习(Reinforced Learning),是透过奖励与惩罚的机制,让机器在虚拟情境中不断试错(trial and error),累积经验来学习。这种学习方式虽然在竞技比赛里表现良好、甚至能胜过人类,但学习效率极低。举例来说,人类在15分钟内能领略的任一款Atari游戏,机器却平均要花83小时才能学会,在脸书研发的虚拟围棋游戏ELF OpenGo中,更要用2000个GPU训练14天,更别提要训练200年才学得会的星海争霸游戏(StarCraft)。

而且,强化学习并不能永远在虚拟场景训练,一旦进到真实世界,所有试错的过程将会带来高成本的代价。比如说,在自驾车了解前面是悬崖要转弯之前,可能需要先掉下去几百次,且不同于虚拟世界可以无间断的循环训练,在真实世界中花费的训练时间只会更长;更何况,人类学习过程只需极少数“试错”的过程,比如在看到前方的悬崖之后,常识就会使我们转弯。

对此,Yann LeCun认为,自监督学习能解决这个问题。比起强化学习是从试错的经验中学习,自监督学习是建构一个庞大的神经网络,透过预测来认识世界。换句话说,自监督学习所训练的模型,能借由观察过去、当下所有的训练资料,来预测下一刻会发生的事情,因此,在预测到车子将会摔落悬崖时,就能提前转弯来避免。“就像人类是不断透过已知的部分来预测未知,看到一半的人脸会自动在脑海补足另一半画面,所以自监督学习是更接近人类学习行为的方法。”

影片、声音等高维度连续资料的预测仍为自监督学习的挑战

要更详细的解释自监督学习之前,Yann LeCun先举例解释人类的学习行为。如果在一个5个月大的小婴儿面前,展示一辆漂浮在空中的玩具车,从零开始学习的婴儿只会觉得,这就是这个世界运行的方式;然而,如果在一个两岁的孩童面前这么做,孩子将会很惊讶,因为他已经透过长期的观察,在脑海里形成一套常识,虽然他孩无法理解“地心引力”这个名词,却知道玩具车不该漂浮在空中。

小婴儿随着年龄会经历不同阶段的学习。

也就是说,“人类大部分是透过观察来学习,少部分才是靠互动交流。”而自监督式学习,也是透过观察,从现有训练资料中的任何部分来学习,去预测未知的部分,而且学习过程中并不仰赖人类给定的标签。Yann LeCun表示,不管是从过去的资料预测现在或未来、从近期的资料预测未来或过去、或从同一时间下的其他资料预测缺失的部分等,都能运用自监督学习来完成。

Yann LeCun也进一步以蛋糕,来比喻上述提到的三种学习方法,所能预测的资料量。其中,以强化学习能预测的资料最少,是基于奖励才能做出少量正确的预测,就像蛋糕上的樱桃;而监督式学习的预测资料量,是取决于人类提供的标记资料,一个样本能回馈10-10,000 bits不等的讯息,像是蛋糕的表层;但是自监督式学习,则是给多少资料,就有多少资料能观察,一个样本能产生上百万bits的预测回馈,就像整个蛋糕本身,这是其他学习方法所不能及的。

此外,在应用方面,自监督式学习目前在自然语言处理(NLP)的应用颇有成效。比如去年Google对外开源了用于自然语言预训练的新技术BERT(Bidirectional Encoder Representations from Transformers),能在一个挖空15%内容的句子中,预测字汇并填空;其他相关的应用,还包括Word2vec、FastText、Cloze-Driven Auto-Encoder等文本内容处理模型。

除了NLP,图像的填空是更具挑战性的任务,但现在也已经能够过拼图与着色问题的解法来预测。因为自监督式学习适合用来预测具有离散分布(discrete distribution)特性的资料,所以在着色的部分,就能运用离散分布的方式,将颜色量化为较少数量的颜色种类,再挑选出可能代表该位置的颜色来着色;而拼图问题则是能用基本的分类问题解法,先对资料的特征进行训练,再进行预测。

但是,自监督学习在影片或声音识别的领域却不如预期。这是因为动态的影像与声音资料,都是属于高维度的连续性(High-dimensional Continuous)资料,很难参数化(parametrize)其可能的离散分布,在这个情况下,就时常预测出含有多种可能性的结果。对此,Yann LeCun提出一个架构,要建构出世界模拟器(world simulator)模型,来预测现实环境将会因为每个决策产生什么改变,再客观的去衡量哪一种决策更有利。

对于自监督学习在影片预测的成效,Yann LeCun也提出一个研究案例。在一段高速公路的车流影片中,针对其中一辆车的行进路线进行测试,来检视自监督学习模型,是否能借由预测自驾车周遭车辆的行驶轨迹,来估算接下来的行驶方向与速度,测试过程中也保留原始的车辆,另外模拟出一辆不存在的自驾车,来对比两辆车的行进路线差异。而这个模型也证实了动态影像预测的可行性。

黄色的是原本车辆,蓝色的是虚拟自驾车。

对于AI的发展,Yann LeCun认为,现今的深度学习方法,虽然能带给人类新科技的应用,如自驾车、医疗影像分析、语言翻译、聊天机器人等,却无法创造出“真正的”人工智能,也就是具备常识、聪明、敏捷且灵活的机器人。不过他也认为,“尽管机器学习系统仍有局限,但自监督学习可能是个解方,甚至在未来建构出拥有人类常识的机器人(Human Level Intelligence)。”而接近人类学习行为的自监督学习方法,就是实现这个理想的第一步。

2019-09-26 00:50:00

相关文章