APP下载

脸书推出自家轻量版AR辨识模型,在行动装置上就能即时侦测人体动作

消息来源:baojiabao.com 作者: 发布时间:2024-05-12

报价宝综合消息脸书推出自家轻量版AR辨识模型,在行动装置上就能即时侦测人体动作

脸书AI研究院近期才开源释出自家AR技术的核心物件辨识框架Detectron,近日又打造出轻量版的物件侦测和分割架构MaskRCNN2Go,可在行动装置上即时且准确地侦测人体的动作,MaskRCNN2Go架构是根据脸书自家的物件侦测和分割的架构Mask R-CNN,经过优化和调整后打造出的轻量版本,这套模型现在还在研究阶段。

过去,脸书AI相机团队正在研究多种电脑视觉技术和工具,来协助人们展现自己,举例来说,透过即时的风格转换(Style transfer),能够将使用者的照片或是影片,变成梵高画像的风格,搭配即时脸部追踪器,系统可以帮使用者上妆,甚至将使用者的脸部变成阿凡达,试想,如果能够将整身都变成阿凡达呢?

为了达到这个任务,脸书AI相机团队需要正确地即时侦测和追踪人体的动作,由于要辨识出人的身份和大量的姿势变动,这是非常具有挑战性的问题,人体的动作可能是坐着、走路或是跑步,且侦测的对象穿着也不一,可能穿着很长的大衣或是短裤,再加上,侦测的对象可能被其他人或是物品挡住,这些因素都增加创造准确的人体追踪(Body tracking)系统的困难度。

最近,脸书AI相机团队开发了能够准确侦测人体姿势的新技术,还能区隔人与背景,该套模型只有几MB,能够在智能手机上即时地侦人体,脸书也表示,将来这套模型可以协助创造更多新的应用,像是用手势控制游戏、将人去识别化等。

MaskRCNN2Go的架构

脸书AI相机团队打造的人体侦测和分割模型,是采用了物件侦测和分割架构Mask R-CNN,Mask R-CNN架构是脸书AI研究院先前发表的论文,还获得了2017年度国际电脑视觉大会最佳论文奖,Mask R-CNN可以有效地侦测在图片中的物件,同时预测每个物件外型,建立分割遮罩(Segmentation mask),也就是算法能够侦测图片中每一个物件之后,描绘出每个物件的外型。

为了能够在智能手机上即时执行Mask R-CNN的模型,脸书AI相机团队、AML和FAIR的研究人员和工程师一同合作,创造了一个高效能且轻量型的架构:Mask R-CNN2Go,Mask R-CNN2Go模型涵盖了5个元件,分别是主模型、候选局域网络、人体部位侦测器、躯干侦测器、分割器。

首先,主模型(Trunk model)包含多个卷积层,会产生汇入图片的特征,透过候选局域网络(Region Proposal Network)算法,产生预设大小范围的候选区域(Bounding box),也就是透过图片中的边缘、颜色、纹理等特征,预先找出图片中物件可能出现的位置。

接着,区域特征聚集层(ROI-Align layer)会抽取候选框区域中每个物件的特征,并传送到人体部位侦测器(Detection head)。人体部位侦测器包含一系列的卷积层、池化层(Pooling)和全连接层(Fully-connected layers)。

针对每个候选区域,模型会预测该物件与人的相似度,来判定是物件是否为人体,人体部位侦测器也会用非极大值抑制(Non-max suppression)的方法,修正候选区域的座标位置和相邻的区域,并产生图片中每个人体的最终候选区域。

有了每个人体的候选区域后,研究团队在躯干侦测器(Key point head)中,用另一个区域特征聚集层,萃取图片中人体躯干和头部特征,产生人体躯干的遮罩(Mask),最后,取最大的范围产生最终的座标位置。

为行动装置打造的轻量模型MaskRCNN2Go

原本根据影像辨识架构ResNet打造的Mask R-CNN模型,由于受限于行动装置的运算能力和储存空间,无法在在手机上执行,为了解决这个问题,脸书为行动装置开发了高效能的轻量型架构MaskRCNN2Go。

脸书使用了多个方法降低原模型的大小,花了许多时间在优化并修改多个卷积层的宽度,为了确保有足够大的容纳空间,卷积层的核大小脸书采用1×1、3×3和5×5的大小,也修剪权重来减少模型的大小,最终的模型只有几MB,且非常准确。

为了即时执行深度学习算法,研究团队采用并优化脸书的核心架构Caffe2,善用加速神经网络计算的函式库NNPack、SNPE和 Metal,并将修改过的模型模组化,这样一来可以打造轻量型的模型,又能确保模型可以快速运行,且避免潜在不相容的问题。

脸书表示,开发行动装置的电脑视觉模型是个困难的任务,模型在没有大量的内存条件下,必须占用空间小、运算速度快,预测结果还要准确,脸书未来还会持续开发在行动装置上可执行的高效能模型,来节省所需的电力和运算力。

2018-01-26 15:19:00

相关文章