9万种人体动作大公开！为加速AI影像识别技术进展，Google释出人类行为资料集AVA最新消息

9万种人体动作大公开！为加速AI影像识别技术进展，Google释出人类行为资料集AVA

消息来源:baojiabao.com 作者: 发布时间：2024-05-08

报价宝综合消息9万种人体动作大公开！为加速AI影像识别技术进展，Google释出人类行为资料集AVA

图片来源:

Google

为了加速影像动作识别的研究，Google近日推出人类动作理解资料集AVA（Atomic Visual Actions），提供影片中针对每个人多种动作的标签，AVA收集YouTube公开的影片，将80个动作标注标签，包含走、踢、握手等动作，最后AVA资料集分析57,600个影片段，标注了96,000个人类动作，产生210,000个动作标签。

Google收集不同类型的YouTube影片，主要聚焦在电影和电视类别的影片，撷取还自不同国籍的专业演员动作，将影片每15分钟切割为一个片段，再将15分钟的影片切割为300个非重叠的3秒片段，每个采集资料样本都采取这样的策略。

接着，Google的研究团队手动将每个3秒片段的人物，标注边框，再为每个被标注边框的人，从预设的80个动作标签贴上适合的动作标签，来描述该位人物的动作，这些动作可大致分为3个类别：姿势或移动动作、人与物体互动动作、人与人互动动作。由于Google对所有人物贴上标签，因此标签的概率分布会呈现长尾分布。

在设计AVA资料集时，Google也尝试了一些特别的作法，举例来说，Google试着给一群人贴上至少2个动作标签，就能分析出动作标签同时发生的模式（Co-occurrence Pattern），像是人类通常在演奏乐器的同时演唱、在与小孩嬉玩耍时将人举起，或是拥抱同时亲吻。

Google在部落格的文章中表示，教导电脑理解人类在影片中的动作，一直是电脑视觉技术还未突破的难题，像是个人影片搜寻、动作分析、手势操作界面的应用等，尽管过去几年，图像中的物件辨识和分类有所突破，但是人类动作的辨识仍然是个挑战，因为人类的动作是自然的，很难用定义物件的方式来辨识，因次也难创造出人类动作理解的资料集。

许多标准的资料集，例如UCF101、ActivityNet，以及DeepMind的Kinetics，都采用了图像分类的贴标签（Label）方法，为资料集中的每一个影片，或是影片的片段，贴上一个标签，但是还是没有办法识别出，不同人产生的不同动作。

Google指出，与其他动作资料集相比会发现，AVA有着3个不同的特质，AVA以人为中心贴标签（Person-centric annotation）、标签识别的时间区段，以及采用真实影片。

AVA的分析中，每个动作标签是以人为主，而不是以影片的片段为主，因此，可以在同一个场景之下，针对多个人、不同的动作来辨识，另外，AVA将动作标签的识别控制在3秒，3秒是动作可以被清楚识别的时间。

此外，AVA还采用了真实的影片来源，用电影影片当作训练素材，收集来自不同类型和国家的素材，如此一来，AVA资料集就包含了一般大众人类的动作。

Google希望借由释出AVA资料集，来协助人类动作识别系统的开发，提供更多将复杂动作模型化的可能性，Google将持续改进AVA，也期望开发社群给予回馈，做为未来修改与发展方向的参考。

2018-01-11 07:25:00