APP下载

Google开发可计算动作重复次数的模型RepNet

消息来源:baojiabao.com 作者: 发布时间:2024-05-07

报价宝综合消息Google开发可计算动作重复次数的模型RepNet

Google开发出可以理解各种重复过程的模型RepNet,像是人类跑步、钟摆以及鸟类拍动翅膀等动作,Google提到,过去的研究是跨不同的影片,以非常精细的等级理解同一个动作,而这个研究则是从单一影片,辨识出不停重复的动作。

在日常生活中,常见各种不停重复的过程,像是月亮的阴晴圆缺,到各种生产线和交通的重复模式,Google提到,重复过程能够提供许多资讯,可以帮助研究人员,探索事件重复发生的原因,或是场景中改变的趋势。

这些重复过程,通常具有明确的动作单元,也就是构成动作的有意义片段,Google举例,当一个人切洋葱,动作单元便是重复制造出洋葱切片的这个动作,动作单元可用于自动化精细地分析这些行动,且不需要人工注释这些动作单元。

而RepNet是一种模型,以影片作为输入,这些影片包含各种周期性动作,RepNet能计算动作重复的周期数,而过去解决重复计数的问题,通常是比较影格的像素强度,但是Google提到,实际的影片在拍摄过程,摄影机可能会移动,场景中的物体也会被遮蔽,比例还可能出现急剧变化,所以模型必须要能够学习不受这些噪声影响的特征。

因此Google以端到端的方式训练机器模型,来估算重复的次数,RepNet由3部分组成,影格编码器,以及称为相似矩阵的中介表示,还有周期预测器。系统会先将每个影格的嵌入与其他影格进行比较,计算时间自相似矩阵(TSM),输出可让后续模组容易分析和计算次数的矩阵。

之后每个影格,都根据时间自相似矩阵的相似性序列,使用Transformers来预测重复周期,一旦有了周期,就可以将整个周期片段中的影格数除以周期长度,获得每影格计数,进行加总后就能预测影片中,动作的重复次数。

部分例子具有固定周期,但是部分则没有(下图),像是人进行开合跳则是典型有固定周期的案例,但球在地面弹跳,重复的周期会随着失去能量而缩短,还有搅拌混凝土的人(图右),这个重复动作片段的前后,皆有一段没有动作的区间。

Google提到,这3个例子在TSM中有明显的不同,而RepNet把TSM作为中介层的优点是,Transformer的处理会在自相似空间而非特征空间,因此可以扩及应用到更多种类的案例,像是跳高或是游泳,只要动作以相似的动作和节奏进行,RepNet就能够处理。

要训练这类的模型,需要收集大量重复动作的影片资料集,并且由人工计算影片中,动作重复的次数,但这个过程太过繁琐耗时,因此Google使用合成资料集来训练RepNet,研究人员以重复不包含重复动作的影片,来生成重复任意次数的影片,但Google提到,深度学习太聪明,可以找出伪影作弊,而非真的学会辨识重复模式,因此他们还使用了相机运动增强技术,在播放影片的同时移动影片,以增加困难度。

Google提到,即便RepNet是以合成资料集训练,但是仍可以良好地处理实际的影片,RepNet可以应用在许多的场景中,像是计算心脏跳动这种等速的重复运动,也能够用于计算变速的案例(下图)。

2020-06-24 13:49:00

相关文章