Google开源大规模预训练电脑视觉模型BiT最新消息

Google开源大规模预训练电脑视觉模型BiT

消息来源:baojiabao.com 作者: 发布时间：2024-05-16

报价宝综合消息Google开源大规模预训练电脑视觉模型BiT

Google发布了借由大规模预训练方法，微调出能够快速转移运用其他资料集，以解决各种电脑视觉任务的预训练模型BiT（Big Transfer），强调能更有效率地应用转移图像资料集，并获得极佳的Top-5精确度。

Google提到，虽然目前对电脑视觉研究人员来说，要让深度神经网络表现得越好，就需要用更多的标签资料进行训练，以要训练CNN为例，研究人员可能需要使用OpenImages或是Places这类资料集，以上百万的标签图像进行训练，但是对许多应用程序开发者来说有其困难度。

而预训练便是一个替代的好方法，可以先以通用的资料训练模型，而在通用资料上学习到的视觉特征，模型就能拿来重用在目标任务上，虽然这种方法在实践上相当有效，但在不同的环境中，模型仍无法快速地掌握新概念，Google表示，取自改良语言模型BERT和T5的概念，他们认为大规模的预训练可以提高电脑视觉模型的效能。

为了验证资料规模的影响，Google使用了ILSVRC-2012、ImageNet-21k和JFT三个不同规模的资料集进行实验，三个资料集内含图像数量，分别为1百多万、1千多万和3亿张，Google将这些资料集拿来训练ResNet架构，发现要让更多的训练资料发生作用，必须要同时增加模型的容量，而且训练持续时间也变得非常重要，在预训练较大资料集时，不调整运算时间，将会使得结果更糟，一旦能根据资料集调整运算配置，将会大幅改进效能。另外，Google还提到，用群组正规化代替批次正规化，也是提高效能的重要关键。

Google将BERT上在语言领域所建构的方法，拿用来调整预训练的BiT模型，Google提到，由于预训练模型已经能够很好地理解视觉世界，因此这种简单的策略非常有效。只不过有许多超参数需要微调，Google运用了启发式的超参数调校方法BiT-HyperRule，透过使用一些图像辨识率以及标签范例数量等高层级的资料特征，调整参数配置，Google成功将BiT-HyperRule应用在20多种不同的任务中。

要使用很少的范例转移BiT解决其他任务时，只要增加预训练的通用资料量，以及基础结构的容量，所产生的模型，其适应新资料的能力就越好，（下图）BiT转移处理CIFAR-10资料集，使用图片最少的资料集ILSVRC-2012所训练的模型，较其他两个资料集的精确度都差，而JFT则是使用较大的资料集在较大的基础架构预训练，明显资料效率更高。

在其他的实验也都呈现相同的结果，包括将BiT模型用到ObjectNet资料集上，Google提到，ObjectNet资料集与现实场景很像，物体可能出现在非典型的背景，并以非典型的视角和旋转呈现，而Google光使用ILSVRC-2012训练并进行微调的模型，Top-5精确度就可以达到80％，比之前最好的成果还要高25％。

Google现在发布了以ImageNet-21k进行预训练的BiT-M模型，并且提到，这将可以用来代替常用的ImageNet预训练模型。

2020-05-24 10:48:00