成熟的目标检测也该自己学习资料增强策略达到SOTA了最新消息

机器之心报道

参与：思源、一鸣、李亚洲

只要资料增强就能在 COCO 资料集上达到当前最优，Google大脑 Quoc Le 等研究者表明，目标检测中各种高大上的正则化方法，都不如自动资料增强来的实在。2018 年，Google大脑的研究者在 arXiv 上发表论文，提出一种自动搜寻合适资料增强策略的方法 AutoAugment。该方法建立一个数据增强策略的搜寻空间，利用搜索算法选取适合特定资料集的资料增强策略，从而在 ImageNet、CIFAR 等分类任务上取得了极好的表现。

今日，这支团队再次宣布开源面向目标检测的资料增强策略。

本文作者之一，Google大脑的创始成员、AutoML 的缔造者之一 Quoc Le 在 Twitter 上表示，该策略能够极大的已经检测模型在他们基准上的表现。

论文连结：https://arxiv.org/abs/1906.11172Github 连结：https://github.com/tensorflow/tpu/tree/master/models/official/detection

Quoc Le 等研究者表示，尽管资料增强能极大的改进影象分类表现，但它在目标检测任务上的效果还未被透彻研究过。此外，目标检测所用影象的注释会造成大量的成本，所以资料增强对此计算机视觉任务的影响可能会更大。在此研究中，作者们研究了资料增强在目标检测上的影响。

在 COCO 资料集上的实验结果说明，优化后的资料增强策略将检测准确率提升了超过 2.3 mAP，使单推理模型能够达到最佳效果——50.7 mAP。重要的是，COCO 资料集上发现的这种最佳策略可以直接迁移到其他目标检测资料集上，同样可以提升预测准确率。

左图为 COCO 资料增强示例，右图为带（红色）或不带（黑色）学习的资料增强策略效果。

研究结果说明，在目标检测方面，学习资料增强策略比最好的模型结构正则化更有效，即使在基线模型本身就很强的情况下也是如此。

目标检测中的自动资料增强

最近的研究显示，与其手动设计资料增强策略，不如让模型从资料中学习优化策略。这样可以显著提升模型在影象分类中的泛化表现。那么，是否可以直接将影象分类中的资料增强方法迁移到目标检测中？或者说找到一种新的学习方案让模型自己决定该怎样做资料增强？

在这项研究中，研究人员建立了一些可以用在目标检测资料集上的资料变换策略，并将这些策略迁移到其他检测资料集和模型结构上。研究人员使用的变换策略包括一些可以在整张影象中使用，但是不会影响边界框位置的方法（例如，从影象分类中借鉴的色彩变换策略）、也有通过改变边界框位置从而影响整个影象的策略（例如，翻转或裁剪影象），以及一些只对边界框内的目标产生影响的变换策略。

当变换策略的数量变得较大时，人为地结合不同的策略变得难以追踪。因此，研究人员只搜寻针对目标检测资料集的策略。实验说明，这种策略在不同的资料集、不同的资料集大小、不同的模型结构和检测算法上都达到了非常好的效果。另外，研究人员探究了搜寻空间中算子量不同时，资料增强策略的表现，以及在不同资料集大小下增强技术的效果。

方法概要

研究人员将增强搜寻视为视为离散的最优化问题，它的优化目标主要是增强策略的泛化效能。

他们定义一个增强策略为一个无序的、有 K 个子策略的集合。在训练中随机选择子策略中的一个，并在当前影象中使用。每个子策略都有 N 个影象变换过程，它们依次应用到不同的影象上。通过建立搜寻空间，研究人员将搜寻一个学习增强策略的问题转换为离散的最优化问题。

在这篇论文中，搜寻空间由 K = 5 个子策略构成，每个子策略有 N = 2 个操作，依照顺序对单一影象进行处理。此外，每个操作都和两个超引数有关，这两个超引数定义了采用操作的概率，以及操作的大小。如下所示，图 2 展示了 5 个学习到的子策略。

学习资料增强子策略的例子。一张样本影象使用 5 个学习子策略，每列是对应不同子策略的随机样本。每个增强子策略都由三元组构成，包括操作、应用概率以及大小度量。为了确保边界框与增强策略保持一致，可以调整边界框位置。

在一些基本实验中，研究人员发现了在搜寻空间中发现了 22 种对目标检测有收益的操作。这些操作可以简要总结为：

颜色操作：扭曲颜色通道，不改变边界框位置（例如，均衡化、对比化、改变亮度）。几何操作：几何扭曲影象，相对的也改变边界框标注的位置和大小（例如，旋转、剪下 X、转换 Y 等）。边界框操作：只改变边界框标注内的画素内容（例如，只在 BBox 内均衡化、只在 BBox 内旋转、只在 BBox 内翻转）。实验结果

研究者将自动增强方法应用到 COCO 资料集上，他们希望能找到一种可以泛化到其它目标检测资料集上的增强策略，且模型只需要使用普通的 ResNet-50 和 RetinaNet 就行。研究者使用 COCO 资料集上搜索到的最优策略，并迁移到不同的资料集大小和架构配置以检验其泛化性。

在如下表 1 中，学习到的自动增强策略在不同的骨架网络上都能获得对应的效能提升，后续的实验都使用 ResNet-50 作为检测器的骨架网络。