APP下载

9万种人体动作大公开!为加速AI影像识别技术进展,Google释出人类行为资料集AVA

消息来源:baojiabao.com 作者: 发布时间:2024-05-08

报价宝综合消息9万种人体动作大公开!为加速AI影像识别技术进展,Google释出人类行为资料集AVA
图片来源: 

Google

为了加速影像动作识别的研究,Google近日推出人类动作理解资料集AVA(Atomic Visual Actions),提供影片中针对每个人多种动作的标签,AVA收集YouTube公开的影片,将80个动作标注标签,包含走、踢、握手等动作,最后AVA资料集分析57,600个影片段,标注了96,000个人类动作,产生210,000个动作标签。

Google收集不同类型的YouTube影片,主要聚焦在电影和电视类别的影片,撷取还自不同国籍的专业演员动作,将影片每15分钟切割为一个片段,再将15分钟的影片切割为300个非重叠的3秒片段,每个采集资料样本都采取这样的策略。

接着,Google的研究团队手动将每个3秒片段的人物,标注边框,再为每个被标注边框的人,从预设的80个动作标签贴上适合的动作标签,来描述该位人物的动作,这些动作可大致分为3个类别:姿势或移动动作、人与物体互动动作、人与人互动动作。由于Google对所有人物贴上标签,因此标签的概率分布会呈现长尾分布。

在设计AVA资料集时,Google也尝试了一些特别的作法,举例来说,Google试着给一群人贴上至少2个动作标签,就能分析出动作标签同时发生的模式(Co-occurrence Pattern),像是人类通常在演奏乐器的同时演唱、在与小孩嬉玩耍时将人举起,或是拥抱同时亲吻。

Google在部落格的文章中表示,教导电脑理解人类在影片中的动作,一直是电脑视觉技术还未突破的难题,像是个人影片搜寻、动作分析、手势操作界面的应用等,尽管过去几年,图像中的物件辨识和分类有所突破,但是人类动作的辨识仍然是个挑战,因为人类的动作是自然的,很难用定义物件的方式来辨识,因次也难创造出人类动作理解的资料集。

许多标准的资料集,例如UCF101、ActivityNet,以及DeepMind的Kinetics,都采用了图像分类的贴标签(Label)方法,为资料集中的每一个影片,或是影片的片段,贴上一个标签,但是还是没有办法识别出,不同人产生的不同动作。

Google指出,与其他动作资料集相比会发现,AVA有着3个不同的特质,AVA以人为中心贴标签(Person-centric annotation)、标签识别的时间区段,以及采用真实影片。

AVA的分析中,每个动作标签是以人为主,而不是以影片的片段为主,因此,可以在同一个场景之下,针对多个人、不同的动作来辨识,另外,AVA将动作标签的识别控制在3秒,3秒是动作可以被清楚识别的时间。

此外,AVA还采用了真实的影片来源,用电影影片当作训练素材,收集来自不同类型和国家的素材,如此一来,AVA资料集就包含了一般大众人类的动作。

Google希望借由释出AVA资料集,来协助人类动作识别系统的开发,提供更多将复杂动作模型化的可能性,Google将持续改进AVA,也期望开发社群给予回馈,做为未来修改与发展方向的参考。

2018-01-11 07:25:00

相关文章