APP下载

看一眼就知手感 北大学神联手朱儁彦让机器人想象触感

消息来源:baojiabao.com 作者: 发布时间:2024-05-17

报价宝综合消息看一眼就知手感 北大学神联手朱儁彦让机器人想象触感

机器之心报道

参与:shooting、一鸣、杜伟

我们可以通过视觉、听觉和触觉来感知物体,而且这几种感知是可以同时进行且互相感受的。但是机器人却很难做到这一点,它也许能“看”,也可以“触控”,但是这些感知资讯却无法交换。

最近,来自MIT CSAIL的博士、曾经的北大学神李昀烛(一作)联合朱儁彦(二作)等人提出一种预测性的人工智能,使机器人能够通过触控来“看”物体,并且反过来通过视觉影象来预测触控的感受。

加拿大作家玛格丽特•阿特伍德曾在小说《盲刺客》中写道:“触觉先于视觉,先于语言。它是第一语言,也是最后的语言,它不会骗人。”

的确,有时候眼见未必为真,耳听也未必为实。但你用手去触控的感知总不会骗人。

不过,虽然触觉让我们可以直接感受物理世界,但眼睛却可以帮助我们立即理解这些触觉讯号的全貌,让我们快速获得关于物体的认知。

但对我们来说很简单的一件事,对机器人来说却并不容易。带有摄像头的机器人可以直接看世界,带有触觉系统的机器人可以直接感知。但具有触觉或视觉的机器人无法互换这些讯号。

为了缩小这种感官差距,麻省理工计算机视觉和人工智能实验室的研究人员提出了一种预测性的人工智能,可以通过触觉来“看”世界,再通过“看”来感受。

下面,我们来看一下具体研究(先上动图感受下):

绿色:真实结果;红色:预测结果

更多实验动图,请参考:http://visgel.csail.mit.edu

这篇论文到底做了什么?

人类感知世界的方式有很多种,包括视觉、听觉和触觉。在这项研究中,研究人员探索了视觉和触觉之间的跨模态联络。

这项跨域建模任务的主要挑战在于两者之间显著的比例差异:当我们的眼睛同时感知整个视觉场景时,只能感受到物体的一小部分。

为了将视觉和触觉联络起来,研究人员引入了两个跨模态任务:1)从视觉输入中合成可信的触觉讯号,2)从视觉输入中直接预测哪个物体和哪个部分正在被触控。

为了完成此目标,研究人员构建了一个机器人系统来自动化收集大规模视觉-触觉对的过程。如图 1a 所示,机器人手臂装有一个触觉感测器,称为 GelSight。

他们还设定了独立的网络摄像机来记录物体和机械臂的视觉资讯。研究人员总共记录了对 195 个不同物体的 12000 次触控。每个触控动作包含 250 帧的视讯序列,最后产生了 300 万个视觉和触觉对影象。

为了缩小影象资料和触控资料之间的资料量比例差距,他们提出了新的条件对抗模型,该模型结合了触觉的比例和位置资讯。人类的感知研究表明,该模型可以根据触觉资料生成逼真的视觉影象,反之亦然,即它也可以根据视觉资料生成触觉感知。

最后,研究人员给出了关于不同系统设计的定性和定量实验结果,并可视化了模型学习到的表征,以帮助我们理解它捕捉到的东西。

这项研究可以帮助机器人更好的理解物体的性质,而相关的拓展甚至可以协助盲人更好的通过触控感知环境。

机器人如何通过触觉来“看”世界,或者通过视觉影象来“想象”触觉

在模型层面,研究人员构建了一个跨模型的预测系统,以根据触觉预测视觉,反之亦然。他们首先将触觉中的程度、规模、范围和位置资讯结合在模型中。然后,使用资料平衡的方法多样化其结果。最后,通过考虑时间资讯的方法进一步提高准确性。

研究中的模型基于 pix2pix 方法,是一个用于影象到影象任务的条件 GAN 框架。

在任务中,生成器接受视觉影象或触觉影象作为输入,并生成一个对应的触觉或视觉影象。而判别器观察输入的影象和输出的影象。

在训练中,判别器分辨输出和真实影象的区别,同时生成器生成真实的,可以迷惑判别器的影象。

在实验中,研究人员使用视觉-触觉影象对来训练模型。在从触觉还原视觉的任务中,输入触觉影象,而输出是对应的视觉影象。而在视觉预测触觉的任务中,则输入和输出对调。

模型

图 3:视觉-触觉的模型结构。生成器包括编码器和解码器两个部分。输入使用了视觉影象和参考视觉-触觉影象一起编码,并产生触觉影象作为输出。对触觉-视觉的任务上,使用同样的结构,但是交换视觉影象和触觉影象的输入输出位置。

模型使用编码器-解码器架构用于生成任务。在编码器上分别使用两个 ResNet-18 模型用于输入影象(视觉或触觉影象)和参考的视觉-触觉影象。

将来自编码器的两个向量合并后,研究人员将其输入解码器。解码器包括五层标准的卷积神经网络,因为输出和一些参考影象相似,研究人员在编码器和解码器之间其中加入了一些跨层连线。对于判别器,研究人员使用了 ConvNet。

为防止模式崩塌,研究人员采取资料重均衡策略来帮助生成器生成不同的模式。评估包括关于结果真实感的人类感知研究以及触控位置的准确性和 GelSight 影象中变形量等客观度量。

机器人设定

研究人员使用 KUKA LBR iiwa 工业机械臂来实现资料收集过程的自动化。机械臂上安装的 GelSight 感测器用以收集原始触觉影象。

他们还在机械臂背面的三脚架上安装了一个网络摄像头,以捕捉机械臂触控物体的场景视讯。此外,研究人员还利用时间戳记录来同步视觉和触觉影象。

资料集和方法

图 2: 参与实验的物品集合。使用了很多日用品和食品。

表 1: 资料集的划分。

研究的资料集是 YCB(Yale-CMU-Berkeley)资料集,一个标准的日用品资料集,被广泛用于机器人操作研究。研究人员在研究中使用了 195 个物品,其中 165 个作为训练集,并使用 30 个已训练的和 30 个模型未见过的物品进行测试。

训练

模型使用 Adam 学习器,学习率 0.0002。L1 loss 的λ为 10。使用 LSGAN 而非标准 GAN 的损失函式。同时对影象采用了一些资料增强机制,如随机剪裁,或影象亮度、对比度、饱和度和色调微调。

实验创新

为了提高模型的表现,研究人员在实验上采取了一些创新措施:

使用参考触觉-视觉影象,帮助机器人定位触控位置,减少从视觉到触觉任务中需要判断触控位置的困难。平衡大量的没有材质和起伏的平面触觉资料,避免模型崩溃而使机器人在空气中做无谓的物体触控动作。考虑时间资讯(何时触摸了物体表面),避免输入和输出序列不同步。实验结果

图 5:模型和其他基线结果的视觉化对比。模型可以更好地根据视觉影象预测物体表面的触觉资讯,也能够更好地根据触觉资讯还原影象表面。

表 2:真假测试中的模型表现。模型可以更好地分辨真实和虚假的触觉讯号,不管是对已知的物体还是未知的物体。

图 6:从视觉到触觉的量化评测结果。上图:测试机器人是否已经认知到触摸了物体表面的错误数。下图:根据影象还原触觉点位置的失真错误情况。实验模型表现基本上比其它模型好。

图 7:从视觉还原触觉的情况。上图:模型是否能够及时检测到已经触摸了物体表面的曲线。下图:根据影象还原的触觉点阵资讯。

一作介绍

李昀烛

不看不知道,一看吓一跳。

一作小哥哥也是枚妥妥的学神。

本科毕业于北京大学,被选入拔尖人才培养计划,曾获学院十佳毕业论文、北京大学优秀毕业生等荣誉。

本科期间在北京大学和斯坦福大学的多个实验室进行科研活动,并以一作身份发表多篇计算机视觉和机器学习顶级会议论文。

李昀烛发表论文列表,我们只截取了部分。

不愧是学神,在这么多顶级大会上发表过论文。而且仔细看,有好几篇都是和朱儁彦合作的。一个出自清华,一个出自北大,妥妥的强强联合。

李昀烛现为麻省理工学院电脑科学与人工智能实验室博士二年级学生,师从计算机视觉科学家安东尼奥·托拉尔巴(Antonio Torralba)和 Atlas 机器人设计团队负责人罗斯‧泰得瑞克(Russ Tedrake)。

他的专业领域是计算机视觉、机器学习和机器人技术,尤其是基于深度学习的机器人动力学建模和多模态感知。他希望自己的研究能够使机器人更好地感知环境,并在动态环境中做出更好的决策。

此前机器之心报道的一篇关于可伸缩触觉手套的论文,李昀烛也参与其中。

参考内容:

http://news.mit.edu/2019/teaching-ai-to-connect-senses-vision-touch-0617

http://visgel.csail.mit.edu/visgel-paper.pdf

市北·GMIS 2019全球资料智慧峰会于7月19日-20日在上海市静安区举行。本次峰会以“资料智慧”为主题,聚焦最前沿研究方向,同时更加关注资料智慧经济及其产业生态的发展情况,为技术从研究走向落地提供借鉴。

本次峰会设定主旨演讲、主题演讲、AI画展、“AI00”资料智慧榜单释出、闭门晚宴等环节,已确认出席嘉宾如下:

大会早鸟票已开售,我们也为广大学生使用者准备了最高优惠的学生票,点选市北·GMIS 2019全球资料智慧峰会_精彩城市生活,尽在活动行!!即刻报名。

2019-11-22 05:50:00

相关文章