不需人为标记资料，Google让机器人从抓取物体的过程中自己学会辨识物体最新消息

不需人为标记资料，Google让机器人从抓取物体的过程中自己学会辨识物体

消息来源:baojiabao.com 作者: 发布时间：2024-05-11

报价宝综合消息不需人为标记资料，Google让机器人从抓取物体的过程中自己学会辨识物体

Google提出了简单且高效能的算法Grasp2Vec，让机器人从自我监督式抓握中，学习物体表示的方法，在不需要人类标记资料的情况下，学习物体辨识。

人类从小时候就具备将物体捡起的能力，即便没有被明确的教导过该怎么做。而在认知发展研究中认为，与物体互动的能力，在物体感知和操纵能力中扮演重要角色。人类可以透过与周遭物体互动，知道该怎么抓取并从结果中自我学习。

而对于机器人来说，自我学习可让系统在不需要许多训练资料或是手动监督下进行学习。Google受物体恒存（Object Permanence）的概念启发，发展出了Grasp2Vec，这是一种用于获取物体表示的高效能算法。Grasp2Vec的运作基于一系列的事实，包括机器人要抓住物体并将其举起，该物体势必存在于场景中，另外，机器人知道抓住的物体，存在于当前抓取器中，因此会在场景中消失。透过这种形式的自我监督学习，机器人可以在抓取物体后的场景视觉变化学习辨识物体。

基于Google与X Robotics先前的合作成果，Google使用机器手臂随意地抓取物体，而该经验将启动物体丰富表示方法的学习，而该表示方法将能被用来训练有意图的抓取能力，执行人类要求捡起物体的命令。

在增强学习的框架中任务成功与否，是以获得的奖励来衡量，而在Google的这项机器手臂抓取实验中，设计奖励是一个困难的挑战，Google提到，在实际抓取任务中，研究人员向机器人展示预期抓握物体的照片，而机器人试图抓取该物体后，便会检查手臂中的物体内容。而这个任务的奖励则转变成了物体辨识问题，判别抓取的物体与照片是否相符。

而为了解决这个辨识问题，Google需要开发出特别的感知系统，该系统能从非结构化的图像资料，在没有任何人类标记的情况下，萃取有意义的物体概念，以非监督的方式学习物体的视觉感知。Google让系统收集机器手臂操作物体的资料，透过抓取物体，将其从场景中移除，来取得需要的图像资料，这个过程会产生三种图像，第一是抓取物体前的场景图，第二则是抓取物体后的场景图，最后则是抓取物体本身的单独图片。

这三张图的关系是，抓取前场景的图减去抓取后场景的图，所剩下的物体应等于抓取物体本身。Google使用完全卷捷豹构和简单的测量学习算法（Metric Learning Algorithm）来计算以上的等式关系。在经过训练后，模型会产生两个有用的属性，分别是物体相似性以及本地化目标物体。

物体相似性是向量嵌入间的距离，可以用来比较物体并确定这些物体是否相同，以实现增强学习的奖励机制，并允许机器人在没有人工标签的情况下，学习实体抓取。本地化目标物体属性则可以组合场景映射和物体嵌入，在本地化图像空间中查询物体，透过获取空间元素图的元素乘积，以及与查询物体相符的向量，能够找到空间映射与查询物体相符的所有像素。

在本地化图像空间中查询物体后，所得到的热区图，可以用来规划机器人接近物体的方法，研究人员将Grasp2Vec本地化和实体辨识功能，与任意抓取政策结合，在机器人抓取物体并资料收集过程，辨识出物体的成功率达80％，而辨识新物体的成功率也有59％。

这个研究展示了机器人抓取技能产生的资料，可被应用于学习物体中心的表示法，而该表示法有助机器人学习更多复杂的行为，并且仍可以保留自动抓取系统的自我监督学习属性。