APP下载

Google开源大规模预训练电脑视觉模型BiT

消息来源:baojiabao.com 作者: 发布时间:2024-05-16

报价宝综合消息Google开源大规模预训练电脑视觉模型BiT

Google发布了借由大规模预训练方法,微调出能够快速转移运用其他资料集,以解决各种电脑视觉任务的预训练模型BiT(Big Transfer),强调能更有效率地应用转移图像资料集,并获得极佳的Top-5精确度。

Google提到,虽然目前对电脑视觉研究人员来说,要让深度神经网络表现得越好,就需要用更多的标签资料进行训练,以要训练CNN为例,研究人员可能需要使用OpenImages或是Places这类资料集,以上百万的标签图像进行训练,但是对许多应用程序开发者来说有其困难度。

而预训练便是一个替代的好方法,可以先以通用的资料训练模型,而在通用资料上学习到的视觉特征,模型就能拿来重用在目标任务上,虽然这种方法在实践上相当有效,但在不同的环境中,模型仍无法快速地掌握新概念,Google表示,取自改良语言模型BERT和T5的概念,他们认为大规模的预训练可以提高电脑视觉模型的效能。

为了验证资料规模的影响,Google使用了ILSVRC-2012、ImageNet-21k和JFT三个不同规模的资料集进行实验,三个资料集内含图像数量,分别为1百多万、1千多万和3亿张,Google将这些资料集拿来训练ResNet架构,发现要让更多的训练资料发生作用,必须要同时增加模型的容量,而且训练持续时间也变得非常重要,在预训练较大资料集时,不调整运算时间,将会使得结果更糟,一旦能根据资料集调整运算配置,将会大幅改进效能。另外,Google还提到,用群组正规化代替批次正规化,也是提高效能的重要关键。

Google将BERT上在语言领域所建构的方法,拿用来调整预训练的BiT模型,Google提到,由于预训练模型已经能够很好地理解视觉世界,因此这种简单的策略非常有效。只不过有许多超参数需要微调,Google运用了启发式的超参数调校方法BiT-HyperRule,透过使用一些图像辨识率以及标签范例数量等高层级的资料特征,调整参数配置,Google成功将BiT-HyperRule应用在20多种不同的任务中。

要使用很少的范例转移BiT解决其他任务时,只要增加预训练的通用资料量,以及基础结构的容量,所产生的模型,其适应新资料的能力就越好,(下图)BiT转移处理CIFAR-10资料集,使用图片最少的资料集ILSVRC-2012所训练的模型,较其他两个资料集的精确度都差,而JFT则是使用较大的资料集在较大的基础架构预训练,明显资料效率更高。

在其他的实验也都呈现相同的结果,包括将BiT模型用到ObjectNet资料集上,Google提到,ObjectNet资料集与现实场景很像,物体可能出现在非典型的背景,并以非典型的视角和旋转呈现,而Google光使用ILSVRC-2012训练并进行微调的模型,Top-5精确度就可以达到80%,比之前最好的成果还要高25%。

Google现在发布了以ImageNet-21k进行预训练的BiT-M模型,并且提到,这将可以用来代替常用的ImageNet预训练模型。

2020-05-24 10:48:00

相关文章