APP下载

脸书发表采用自我监督学习技术的电脑视觉模型SEER

消息来源:baojiabao.com 作者: 发布时间:2024-05-13

报价宝综合消息脸书发表采用自我监督学习技术的电脑视觉模型SEER

脸书新开发了一个称为SEER(SElf-supERvised)的自我监督式电脑视觉模型,能够准确辨识图像中的内容,SEER具有数十亿个参数,可从互联网上任何图像中学习,不需要像当今大部分电脑视觉模型的训练,需要经仔细的安排,并且使用标注资料集。另外,脸书还发表了用来开发SEER的底层开源函式库VISSL,期望能使自我监督学习技术更加普及。

自我监督式学习现在被大量应用在自然语言处理上,特别是在问答、机器翻译和自然语言推论方面,已经有了重大的突破,而现在脸书将自我监督的学习范式转移到电脑视觉上,开发出SEER。

脸书提到,自我监督在文字和图像上的应用不同,对文字来说,语意概念会被分解为离散的单词,而在图像上,算法会决定画素所属的概念。此外,同一个概念在图像中,也有很大差异,例如同样是猫,但是不同姿势的猫和从不同角度拍摄的猫变化很大,因此算法需要从大量的图片中学习,才能掌握单一概念的变化。

因此要扩展模型,使其能够处理高维度的图像资料,需要两个重要功能,第一是从大量随机图像中学习,而不需要任何元资料以及注解,第二则是需要足够大的卷积网络,才能从庞大且复杂的资料中,捕捉并学习每一个视觉概念。脸书开发了一个称为SwAV的新算法,可以使用线上分群功能,快速地以视觉概念和相似度分组图像,以SwAV为基础,脸书加速了自我监督训练的速度,减少6倍的训练时间。

另外,Runtime和内存效能也是很重要的要素,脸书使用了他们最近刚开发的新模型RegNets,该模型是一种卷积网络,经过特别设计,可以扩展到数十亿甚至数兆参数,并且进行最佳化,以适应不同Runtime和内存限制。

在经过10亿张随机、未经整理和标记的公共Instagram图像进行预训练,结果显示SEER的效能比起当前最先进的自我监督系统还要好,在ImageNet上达到Top-1指标的准确性有84.2%,也就是说,在对图像进行预测时,概率最大的结果即为正确答案的准确度为84.2%,而即便只使用10%的ImageNet资料集进行训练,SEER的Top-1精确度仍达到77.9%,而使用1%带有注解的ImageNet范例训练,则Top-1精确度达到60.5%。

脸书提到,这项发展是一项重大的突破,因为证明自我监督学习可被用于电脑视觉中,而且强化了电脑视觉模型的灵活性、准确性和适应性。

随着这个自我监督式电脑视觉模型SEER发表,脸书同时也推出SEER底层所使用的VISSL函式库,VISSL是一个以PyTorch为基础的函式库,可以让开发者简单地在图像任务中应用自我监督技术。VISSL包含了一个基准组合,和超过60个现成的预训练模型,研究人员可以简单地比较数种自我监督方法。

2021-03-09 11:47:00

相关文章