高效点云处理模组让更深的网络成为可能最新消息

From:伦敦大学学院; 编译: T.R

点云是三维深度学习中一种重要的资料型别，研究人员们一直致力于高效准确的处理点云，并基于点云实现分类、检测和分割等一系列高阶计算机视觉任务。自从PointNet以来，研究人员们提出了众多基于PointNet的模型和模型变体，极大的拓展了计算机视觉对于三维点云资料的处理能力。

但是由于点云的表示和处理方法对于计算资源的消耗使得网络模型无法加深，同时全域性与区域性的资讯缺乏多层级地互动也限制了模型的表达能力。

为了探索这些问题的解决办法、来自伦敦大学学院的研究人员们提出了一系列新的点云处理模组，从效率、资讯共享和点云卷积操作等方面进行了研究，得到了更宽、更深、更快效率更高的点云处理网络，让更深的点云深度学习模型成为可能。

与影象领域的深度学习架构相比，针对点云的处理手段还比较简单。无论是模组的多样性和网络的宽度与深度上，点云网络的架构都还有很大的发展空间。例如PointNet和PointNet++这样的模型架构随让证明了神经网络的有效性，但是对于计算资源的巨大消耗成为了制约这类架构发展的限制。

网络内部的每一个节点都需要携带所有邻域的特征使得储存资源消耗过大，过深的网络无法高效的实现。而在影象领域的发展经验表明，更深更宽的网络与模型的精度有着直接的联络。研究人员在这一工作中通过引入三方面的新结构来改善点云处理网络的精度、降低计算资源的消耗，同时提升了推理阶段的执行速度。

多分辨率

研究人员引入了多分辨率用于在多个不同的尺度上处理多尺度网络结构，大幅度降低了内存占用。在PointNet++中利用不断增加的聚类半径来对原始点云处理多尺度资讯。而在这篇文章中，研究人员直接在网络早期的处理阶段使用了多个不同的聚类半径来处理，使得模型可以混合多个尺度的资讯，理解多尺度上下文内容并减少计算资源的消耗。

研究人员使用了以下采样的方法来对原始点云进行处理，而后进行分组实现了不同尺度的处理。下图显示了多分辨率的处理方式不仅增加了某个点的领域感受野，同时不增加内存占用，更好的捕获全域性的内容资讯。

图中红色的点表示绿色点增加的感受野

点卷积模组

为了更加高效的获取邻域资讯，研究人员将影象邻域资讯的卷积概念延伸到了点云领域，提出了点卷积概念，在训练过程中更有效地混合邻域资讯。相较于PointNet++减小了67%的内存占用，实现了41%的速度提升。其中的关键在于针对分组操作在前向传播的过程中将中间结果及时释放，利用单层神经网络大大加速了处理过程。

上面的算法显示了前向和反向传播的过程，在内存占用和速度上同时进行了优化。