Google让机器人也能正确辨识透明物体最新消息

Google让机器人也能正确辨识透明物体

消息来源:baojiabao.com 作者: 发布时间：2024-05-12

报价宝综合消息Google让机器人也能正确辨识透明物体

Google、Synthesis AI与哥伦比亚大学的研究人员，开发出了一种称为ClearGrasp的机器学习算法，能够利用RGB-D图像，正确估算透明物体的3D空间资讯，使机器人可以正确地与透明物体互动。

Google提到，机器人大量利用RGB-D摄影机或是光达等光学3D感测器，创建精确的环境3D地图，但是这些光学空间感测器却对像是玻璃容器之类的透明物体失效，因为这些感测器都是假设所有物体表面皆为朗伯（Lambertian）表面，也就是表面可平均地对所有方向反射光线，在所有视角呈现均匀的亮度，但是透明物体违反了这个假设，透明物体既反射又折射光线，因此感测器通常无法正确取得透明物体的深度。

研究人员面对的第一项难题便是取得深度学习模型的训练资料集，目前并没有任何透明物体3D资料集，现成的资料集都会忽略透明表面，因为需要花费大量的人力与时间资源进行标记工作。为了解决这个问题，研究人员着手创建大规模的透明物体资料集，其中包含5万个写实渲染图，资讯包含物体表面法向量、分割遮罩、边缘和深度。

每张图像最多包含5个透明物体，这些物体放置在平坦的地面上或是手提袋内，皆具有不同的背景和照明，研究人员还拍摄了286个真实世界图像测试集，拍摄真实测试集非常麻烦，需要在场景中将每个透明的物体，以相同的摆设方式置换成上色的物体，以布料或是胶板当作物体背景，场景内还会随机散布不透明物体，研究人员在室内以各种照明条件进行拍摄。

虽然透明物体混淆了典型估算深度的方法，但仍有部分的线索可作为估算物体形状的提示，像是透明物体的表面会出现镜面反射的现象，该现象发生在光线充足的环境，物体因反射光线而出现的光点。由于这视觉提示在RGB图像中很明显，且与物体的形状相关，因此卷积神经网络可以依据这些线索，反过来精确推估物体表面法向量，并进一步用在估算深度上。

大多数的机器学习算法都用单眼RGB图像来推估深度，但即便是人类，要用单眼来推估物体深度也不是一件简单的事，特别是在平坦表面的背景，估算的深度会有更大的误差，更别说要估算深度的对象是透明物体，因此研究人员认为，与其直接估计所有几何形状的深度，不如直接使用RGB-D摄影机的初始深度估计值，这样就能利用非透明的表面深度，来计算透明物体的表面深度。

研究人员开发用来辨识透明物体的ClearGrasp算法，使用3个神经网络，一个用于估算表面法向量，一个用于计算遮蔽的边缘，也就是深度不连续的地方，另一个则是计算透明物体的遮罩，遮罩是用来排除非透明物体的像素，以便填充正确的深度。

算法包含了一个全域最佳化模组，该模组会从已知深度的曲面，开始预测其他曲面的法向量，以重建物体的形状，并使用预测的遮罩来分隔不同的物体。每个神经网络都以合成资料集训练，并且在真实测试资料集中表现良好。

但是ClearGrasp算法反而在估算墙壁或是水果等其他表面法向量表现很差，研究人员发现，这是因为合成资料集的限制，透明物体的背景就只是平坦的地面，因此他们找来了Matterport3D和ScanNet资料集，以真实室内场景训练法向量预测模型，使其能良好地处理所有表面。

经实验证实，ClearGrasp能够比现存的其他方法，更精确地重建透明物体的深度，而且即便只以合成图像训练，ClearGrasp也能正确地处理真实世界中的物体，即便物体的形状在训练资料集中从未出现过。透过利用ClearGrasp计算的深度作为输入，可大幅改进机械手臂抓取透明物体的成功率，从12％大幅上升至74％，具吸力装置的抓取成功率甚至高达86％。

2020-02-14 13:51:00

Google让机器人也能正确辨识透明物体

品牌选车