上海交大发布「人类行为理解引擎」:深度学习 + 符号推理,AI 逐帧理解大片中每个动作
消息来源:baojiabao.com 作者: 发布时间:2024-05-26
看图看片,对现在的 AI 来说早已不是什么难事。不过让 AI 分析视频中的人类动作时,传统基于目标检测的方法会碰到一个挑战:静态物体的模式与行为动作的模式有很大不同,现有系统效果很不理想。
现在,来自上海交大的卢策吾团队基于这一思路,将整个任务分为了两个阶段:先将像素映射到一个"基元活动"组成的过度空间,然后再用可解释的逻辑规则对检测到的基元做推断。
△ 左:传统方法,右:新方法
新方法让 AI 真正看懂剧里的卷福手在举杯 (hold),右边的人在伸手掏东西 (reach for):
对于游戏中的多人场景也能准确分辨每一个角色的当前动作:
甚至连速度飞快的自行车运动员都能完美跟随:
能够像这样真正理解视频的 AI,就能在医疗健康护理、指引、警戒等机器人领域应用。这篇论文的一作为上海交大博士李永露,曾在 CVPR 2020 连中三篇论文。目前相关代码已开源。
知识驱动的行为理解
要让 AI 学习人类,首先要看看人类是怎么识别活动的。比如说,要分辨走路和跑步,我们肯定会优先关注腿部的运动状态。再比如,要分辨一个人是否是在"喝水",那么他的手是否在握杯,随后头又是否接触杯子,这些动作就成为了一个判断标准。这些原子性的,或者说共通的动作就可以被看作是一种"基元"(Primitive)。
我们正是将一个个的基元"组合"推理出整体的动作,这就是就是人类的活动感知。那么 AI 是否也能基于发现这种基元的能力,将其进行组合,并编程为某个具有组合概括性的语义呢?因此,卢策吾团队便提出了一种知识驱动的人类行为知识引擎,HAKE(Human Activity Knowledge Engine)。
这是一个两阶段的系统:
将像素映射到由原子活动基元跨越的中间空间
用一个推理引擎将检测到的基元编程为具有明确逻辑规则的语义,并在推理过程中更新规则。
整体来说,上述两个阶段也可以分为两个任务。首先是建立一个包括了丰富的活动-基元标签的知识库,作为推理的"燃料"。在于 702 位参与者合作之后,HAKE 目前已有 35.7 万的图像 / 帧,67.3 万的人像,22 万的物体基元,以及 2640 万的 PaSta 基元。
其次,是构建逻辑规则库和推理引擎。在检测到基元后,研究团队使用深度学习来提取视觉和语言表征,并以此来表示基元。然后,再用可解释的符号推理按照逻辑规则为基元编程,捕获因果的原始活动关系。
在实验中,研究者选取了建立在 HICO 基础上,包含 4.7 万张图片和 600 次互动的 HICO-DET,以及包含 430 个带有时空标签的视频的 AVA,这两个大规模的基准数据集。在两个数据集上进行实例级活动检测:即同时定位活动的人 / 物并对活动进行分类。
结果,HAKE,在 HICO-DET 上大大提升了以前的实例级方法,特别是在稀有集上,比 TIN 提高了 9.74mAP(全类平均精度),HAKE 的上限 GT-HAKE 也优于最先进的方法。在 AVA 上,HAKE 也提高了相当多的活动的检测性能,特别是 20 个稀有的活动。
通讯作者曾为李飞飞团队成员
论文的通讯作者是上海交通大学的卢策吾,也是计算机科学的教授。在加入上海交大之前,他在中国香港中文大学获得了博士学位,并曾在斯坦福大学担任研究员,在李飞飞团队工作。现在,他的主要研究领域为计算机视觉、深度学习、深度强化学习和机器人视觉。
一作李永露为上海交通大学的博士生,此前他曾在中国科学院自动化研究所工作。在 CVPR 2020 他连中三篇论文,也都是围绕知识驱动的行为理解(Human Activity Understanding)方面的工作。
论文:
https://arxiv.org/abs/2202.06851v1
开源链接:
https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/Activity2Vec
2022-05-08 07:36:50相关文章
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩
2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万9
2023-12-28 19:41:57
- 国家新闻出版署:认真研究《网络游戏管理办法(草桉徵求意见稿)》关切 实行前进一步完善
2023-12-28 19:14:56
- 天猫新规可以无条件申请“仅退款”了?淘宝天猫又离狗多多零元购近了一步
2023-12-28 18:57:55
- 印度以打击金融犯罪为由逮捕了两名 vivo 高管
2023-12-26 16:49:01
- 在国外微信收不到国内信息?微信和WeChat将被拆分
2023-12-15 10:40:15
- 苹果iPhone15 系列手机发布最新消息 预计上市发布时间9月
2023-08-06 23:21:02
- 华为将发布鸿蒙HarmonyOS4操作系统 功能五大升级支持设备清单
2023-08-06 23:17:37
- 整治自媒体网红账号 400万粉丝网红发布擦边视频被无限期封禁
2023-07-12 09:56:09
- 网传微信文件传输助手是真人是真的吗?微信官方回应
2023-06-27 15:53:32
- 电信移动送手机成了“信用购”?你上了运营商的贷款套路了吗?
2023-06-12 17:18:55
- 中国电信广东地区崩了无信号 客服回应已在核实处理
2023-06-08 15:39:04
- 消息称小米新能源汽车价格表正讨论定价区间:双版本不同配置,高配或超 35 万元
2023-03-06 12:56:03
- 华为因制裁被传或分拆剥离手机业务? 内部人士回应:可能性不大.
2023-03-05 23:26:41
- OPPO正式发布安第斯智能云,让终端更智能
2023-02-24 16:02:27
- 华为与OPPO签订全球专利交叉许可协议 包括5G蜂窝通信专利
2023-02-24 16:02:26
- 老蛙将推MINI镜头新品:目前未知具体规格 官宣将于12月20日发布
2023-02-24 16:02:26
- 首发全新35mm定制光学系统 努比亚Z50性能同样强悍
2023-02-24 16:02:25
- Redmi K60屏幕细节曝光:全系标配2K护眼柔性直屏+5000mAh大容量电池
2023-02-24 16:02:25
- OPPO Find N2今天发 合金金属折叠屏更轻了
2023-02-24 16:02:24