APP下载

非监督式学习如何对移动物体进行深度预测?Google找到新方法解决

消息来源:baojiabao.com 作者: 发布时间:2024-05-12

报价宝综合消息非监督式学习如何对移动物体进行深度预测?Google找到新方法解决
图片来源: 

Google

对开发自主机器人而言,感知场景深度是一项重要的任务,准确地预估机器人与物体的距离,是自动导航、回避障碍物,安全规划等能力的关键,Google研究团队最近提出一项创新的作法,来产生移动物体的深度评估结果,跟过去的方法相比,Google的新方法,能够重现移动物体正确的深度,为了鼓励开发社群开发出更多进阶的方法,Google也将这次的研究透过TensorFlow在GitHub中开源释出。

深度的感知可以透过感测器数据来学习,也能仰赖机器人移动产生的不同场景影像,用非监督式的方法学习,在移动的过程中,机器人也会学习到自我运动(ego-motion),来定位自身的位置,这种方法行之有年,近期也有不少研究加入深度神经网络来训练模型,不过,学习预测场景的深度和自我运动还是具有挑战性,尤其是处理高动态场景时和评估移动物体的适当深度时,因为过去的研究并没有针对移动中的物体建立模组,因此在评估移动物体的深度时,结果通常是输出无限深度的错误评估。

Google找到新的方法解决了用单眼(monocular)相机,预测深度和自我运动的无监督学习问题,也解决了高动态场景中的问题,新方法的主要想法就是将结构导入学习框架,也就是说,不直接透过神经网络来学习场景的深度,而是将场景视为包含机器人本身和移动物体的3D影像,并将个别的运动分为独立的转换(transformation),包含场景中用来建立3D几何学和评估物体运动的转换角度(rotation)和相对位移(translation)。除此之外,了解可能移动的物体,像是车子、行人或是脚踏车等,也有助于学习不同的运动向量。尤其是在高动态的场景,将场景拆解为3D和独立的物体,能够提升深度和自我运动的学习。

Google用城市驾驶的资料集KITTI和 Cityscapes测试该方法,发现新方法的成果胜过现行的做法,更重要的是,该方法能够正确地重现与自我运动车辆移动速度相同的车辆的深度,这项工作在之前是一项很大的挑战,因为在这种情况下,移动的车辆显示为静止,显示出与静态地平线一样的特征,因此,过去的判断方法会将其视为无限的深度。此外,也因为Google的新方法是单独处理物体,算法能够针对每个单独的物体计算运动向量,来评估物体移动的方向。

除了上述的成果之外,Google还表示,该研究也提供未来研究非监督式方法的方向,相较于立体视觉(Stereo)和光达(Light Detection And Ranging,LiDAR)感测器,单眼资料相对较便宜,且更容易部署。

2018-11-29 11:33:00

相关文章