脸书发表采用自我监督学习技术的电脑视觉模型SEER最新消息

脸书发表采用自我监督学习技术的电脑视觉模型SEER

消息来源:baojiabao.com 作者: 发布时间：2024-05-13

报价宝综合消息脸书发表采用自我监督学习技术的电脑视觉模型SEER

脸书新开发了一个称为SEER（SElf-supERvised）的自我监督式电脑视觉模型，能够准确辨识图像中的内容，SEER具有数十亿个参数，可从互联网上任何图像中学习，不需要像当今大部分电脑视觉模型的训练，需要经仔细的安排，并且使用标注资料集。另外，脸书还发表了用来开发SEER的底层开源函式库VISSL，期望能使自我监督学习技术更加普及。

自我监督式学习现在被大量应用在自然语言处理上，特别是在问答、机器翻译和自然语言推论方面，已经有了重大的突破，而现在脸书将自我监督的学习范式转移到电脑视觉上，开发出SEER。

脸书提到，自我监督在文字和图像上的应用不同，对文字来说，语意概念会被分解为离散的单词，而在图像上，算法会决定画素所属的概念。此外，同一个概念在图像中，也有很大差异，例如同样是猫，但是不同姿势的猫和从不同角度拍摄的猫变化很大，因此算法需要从大量的图片中学习，才能掌握单一概念的变化。

因此要扩展模型，使其能够处理高维度的图像资料，需要两个重要功能，第一是从大量随机图像中学习，而不需要任何元资料以及注解，第二则是需要足够大的卷积网络，才能从庞大且复杂的资料中，捕捉并学习每一个视觉概念。脸书开发了一个称为SwAV的新算法，可以使用线上分群功能，快速地以视觉概念和相似度分组图像，以SwAV为基础，脸书加速了自我监督训练的速度，减少6倍的训练时间。

另外，Runtime和内存效能也是很重要的要素，脸书使用了他们最近刚开发的新模型RegNets，该模型是一种卷积网络，经过特别设计，可以扩展到数十亿甚至数兆参数，并且进行最佳化，以适应不同Runtime和内存限制。

在经过10亿张随机、未经整理和标记的公共Instagram图像进行预训练，结果显示SEER的效能比起当前最先进的自我监督系统还要好，在ImageNet上达到Top-1指标的准确性有84.2％，也就是说，在对图像进行预测时，概率最大的结果即为正确答案的准确度为84.2％，而即便只使用10％的ImageNet资料集进行训练，SEER的Top-1精确度仍达到77.9％，而使用1％带有注解的ImageNet范例训练，则Top-1精确度达到60.5％。

脸书提到，这项发展是一项重大的突破，因为证明自我监督学习可被用于电脑视觉中，而且强化了电脑视觉模型的灵活性、准确性和适应性。

随着这个自我监督式电脑视觉模型SEER发表，脸书同时也推出SEER底层所使用的VISSL函式库，VISSL是一个以PyTorch为基础的函式库，可以让开发者简单地在图像任务中应用自我监督技术。VISSL包含了一个基准组合，和超过60个现成的预训练模型，研究人员可以简单地比较数种自我监督方法。

2021-03-09 11:47:00