非监督式学习如何对移动物体进行深度预测？Google找到新方法解决最新消息

非监督式学习如何对移动物体进行深度预测？Google找到新方法解决

消息来源:baojiabao.com 作者: 发布时间：2024-05-12

报价宝综合消息非监督式学习如何对移动物体进行深度预测？Google找到新方法解决

图片来源:

Google

对开发自主机器人而言，感知场景深度是一项重要的任务，准确地预估机器人与物体的距离，是自动导航、回避障碍物，安全规划等能力的关键，Google研究团队最近提出一项创新的作法，来产生移动物体的深度评估结果，跟过去的方法相比，Google的新方法，能够重现移动物体正确的深度，为了鼓励开发社群开发出更多进阶的方法，Google也将这次的研究透过TensorFlow在GitHub中开源释出。

深度的感知可以透过感测器数据来学习，也能仰赖机器人移动产生的不同场景影像，用非监督式的方法学习，在移动的过程中，机器人也会学习到自我运动（ego-motion），来定位自身的位置，这种方法行之有年，近期也有不少研究加入深度神经网络来训练模型，不过，学习预测场景的深度和自我运动还是具有挑战性，尤其是处理高动态场景时和评估移动物体的适当深度时，因为过去的研究并没有针对移动中的物体建立模组，因此在评估移动物体的深度时，结果通常是输出无限深度的错误评估。

Google找到新的方法解决了用单眼（monocular）相机，预测深度和自我运动的无监督学习问题，也解决了高动态场景中的问题，新方法的主要想法就是将结构导入学习框架，也就是说，不直接透过神经网络来学习场景的深度，而是将场景视为包含机器人本身和移动物体的3D影像，并将个别的运动分为独立的转换（transformation），包含场景中用来建立3D几何学和评估物体运动的转换角度（rotation）和相对位移（translation）。除此之外，了解可能移动的物体，像是车子、行人或是脚踏车等，也有助于学习不同的运动向量。尤其是在高动态的场景，将场景拆解为3D和独立的物体，能够提升深度和自我运动的学习。

Google用城市驾驶的资料集KITTI和 Cityscapes测试该方法，发现新方法的成果胜过现行的做法，更重要的是，该方法能够正确地重现与自我运动车辆移动速度相同的车辆的深度，这项工作在之前是一项很大的挑战，因为在这种情况下，移动的车辆显示为静止，显示出与静态地平线一样的特征，因此，过去的判断方法会将其视为无限的深度。此外，也因为Google的新方法是单独处理物体，算法能够针对每个单独的物体计算运动向量，来评估物体移动的方向。

除了上述的成果之外，Google还表示，该研究也提供未来研究非监督式方法的方向，相较于立体视觉（Stereo）和光达（Light Detection And Ranging，LiDAR）感测器，单眼资料相对较便宜，且更容易部署。

2018-11-29 11:33:00