脸书发表多个影像辨识方法，可良好预测2D图像中的3D物体形状最新消息

脸书发表多个影像辨识方法，可良好预测2D图像中的3D物体形状

消息来源:baojiabao.com 作者: 发布时间：2024-05-15

报价宝综合消息脸书发表多个影像辨识方法，可良好预测2D图像中的3D物体形状

脸书发表了数篇电脑视觉论文，主题围绕在人工智能系统对于3D场景的理解，包括发表最新的Mesh R-CNN方法，可从2D图像中精确预测物件3D形状，还发展出一种称为C3DPO的方法，能够侦测物件的2D关键点（Keypoint）进而产生3D关键点，另外，也开发出一种能够学习图像与3D形状关联性的方法。

Mask R-CNN一直以来都是理解图像强而有力的工具，但仅针对2D的图像，而脸书改进并发展Mesh R-CNN方法，让使用者可利用2D图像，并透过3D物体重建模型，预测图像中物体的3D形状，而且还能够不受真实世界图像的光学因素影响，包括物件遮蔽、光线混淆和各种拓朴等限制。

脸书应用了2D物体分割系统，先使用Mask R-CNN侦测与分类图像中的不同物件，然后使用网格预测器来预测3D形状，该预测器混合Voxel预测以及网格精细化方法。脸书新的Mesh R-CNN方法训练用的资料，只使用1万组图像与网格模型的配对，这个数量比起一般需要动辄十万组图像与物体注释资料集的方法少得多。

而对于网格物体没有相对应的训练图像，且在无法训练和完全重建静态物体的情境下，脸书开发了替代方法C3DPO（Canonical 3D Pose Networks），该方法透过大量的2D关键点来重建3D关键点模型，并且可精确地区分不同视点变化和形状变形。C3DPO是第一个能够重建具有数千个2D关键点图像资料集的方法，而这种重建在过去因为内存的限制而无法实现。脸书提到，C3DPO使用弱监督方法帮助脸书理解3D几何形状，适合大规模部署。

脸书进一步开发出需要更少监督训练的通用物体3D理解方法，只要利用未注释的图形集合，和粗略的自动实例分割就能获得图像和3D图像间的关联。脸书强调，这个方法不明确预测图像的3D结构，而是解决图像的画素映射到3D形状的问题，能够让脸书从种类等级（Category-Level）3D形状来理解图像，并且归类相同种类的相对应物体，像是能够快速找出同为鸟类的鸟喙。

脸书提到，这个方法的学习不需要太多监督，就可以实现从将画素映射到3D表面，或是逆向操作从3D映射到画素上，学习的资料可以使用粗略分割无注释、免费公开的图像资料集，并可以与其他3D物体预测方法互补使用。

2019-10-31 11:52:00