报价宝 > 资讯 >

AI 终于能生成流畅 3D 动作片了，不同动作过渡衔接不出 bug，准确识别文本指令

消息来源:baojiabao.com 作者: 发布时间：2024-05-08

报价宝综合消息AI 终于能生成流畅 3D 动作片了，不同动作过渡衔接不出 bug，准确识别文本指令

让 3D 动画小人做一套丝滑的动作，需要手动渲染多久？

现在交给 AI，输入几句话就能搞定（不同颜色代表不同动作）：

看向地面并抓住高尔夫球杆，挥动球杆，小跑一段，蹲下。

此前，AI 控制的 3D 人体模型基本只能"每次做一个动作"或"每次完成一条指令"，难以连续完成指令。

现在，无需剪辑或编辑，只需按顺序输入几条命令，3D 人物就能自动完成每一套动作，全程丝滑无 bug。

这只新 AI 的名字叫 TEACH，来自马普所和古斯塔夫・艾菲尔大学。

网友们脑洞大开：

这样以后拍 3D 动画电影，是不是只用剧本就能搞定了？

显然，游戏和仿真行业可以考虑一下了。

那么，这样的 3D 人物动作神器是怎么来的呢？

用编码器"记住"前一个动作

TEACH 的架构，基于团队不久前提出的另一个 3D 人体运动生成框架 TEMOS。

TEMOS 基于 Transformer 架构设计，利用人体真实运动数据进行训练。

它在训练时会采用两个编码器，分别是动作编码器（Motion Encoder）和文本编码器（Text Encoder），同时通过动作解码器（Motion Decoder）输出。

但在使用时，原本的动作编码器就会被"扔掉"、只保留文本编码器，这样模型直接输入文本后，就能输出对应的动作。

与其他输入单一文本、输出确定性动作的 AI 不同，TEMOS 能通过单一文本，生成多种不同的人体运动。

例如"人绕圈"和"站着走几步路停下来"这种单一指令，就能生成好几种不同的运动方式：

△ 转圈方式、走路步幅都不一样

TEACH 的架构正是基于 TEMOS 设计，动作编码器直接就从 TEMOS 那儿搬了过来。

但 TEACH 重新设计了文本编码器，其中包括一个名叫 Past Encoder 的编码器，它会在生成每一个动作时，提供前一个动作的上下文，以增加动作与动作之间的连贯性。

如果是一系列指令中的第一个动作，就禁用 Past Encoder，毕竟没有前一个动作可以学了。

TEACH 在 BABEL 数据集上进行训练，这是一个时长 43 小时的动捕数据集，包含过渡动作、整体抽象动作、以及每一帧的具体动作。

在训练时，BABEL 的这一系列动捕数据会被切分成很多个子集，每个子集中包含一些过渡动作，让 TEACH 能学会过渡并输出。

至于为什么不用另一个数据集 KIT 进行训练，作者们也给出了自己的看法。

例如在动词类型上，BABEL 出现要比 KIT 更具体，相比之下 KIT 更喜欢用 do / perform 这种"模糊的"词汇。

研究人员将 TEACH 与 TEMOS 就连续动作生成效果进行了对比。

比 TEMOS 效果更好

先来看看 TEACH 生成一系列动作的效果，连续不重样：

随后，研究人员将 TEMOS 与 TEACH 进行了对比。

他们使用两种方法对 TEMOS 模型进行了训练，并分别将它们称之为 Independent 和 Joint，区别在于训练用的数据上。

其中，Independent 直接用单个动作训练，在生成时将前后两个动作用对齐、球面线性插值等方式融合在一起；Joint 直接用动作对和分隔开的语言标签作为输入。

Slerp 是一种线性插值运算，主要用于在两个表示旋转的四元数之间平滑插值，让变换过程看起来更流畅。

以生成"挥挥右手，举起左手"连续两个动作为例。

Independent 的表现效果最差，人物当场坐下了；Joint 效果好一点，但人物并没有举起左手；效果最好的是 TEACH，在挥动右手后又举起了左手，最后才放下。

在 BABEL 数据集上测试表明，TEACH 的生成误差是最低的，除此之外 Independent 和 Joint 的表现都不太好。

研究人员还测了测使用上一个动作的最佳帧数，发现当使用前一个动作的 5 帧时，生成的过渡动作效果最好。

作者介绍

Nikos Athanasiou，马普所在读研究生，研究方向是多模态 AI，喜欢探索人类行动和语言背后的关系。

Mathis Petrovich，在古斯塔夫・艾菲尔大学（Université Gustave Eiffel）读博，同时也在马普所工作，研究方向是基于标签或文字说明产生真实的、多样化人体运动。

Michael J. Black，马克思・普朗克智能系统研究所主任，如今谷歌学术上论文引用次数达到 62000 + 次。

Gul Varol，古斯塔夫・艾菲尔大学助理教授，研究方向是计算机视觉、视频特征学习、人体运动分析等。

目前 TEACH 已经开源，感兴趣的小伙伴们可以戳下方地址体验了~

GitHub 地址：

https://github.com/athn-nik/teach

论文地址：

https://arxiv.org/abs/2209.04066

本文来自微信公众号：量子位（ID：QbitAI），作者：萧箫

2022-12-21 17:24:49

美国法院裁定阿里须为Squishmallows玩具侵权案答辩
2023-12-28 19:59:34
小米汽车传员工3700人雷军称小米汽车不可能卖9万9
2023-12-28 19:41:57
国家新闻出版署:认真研究《网络游戏管理办法(草桉徵求意见稿)》关切实行前进一步完善
2023-12-28 19:14:56
天猫新规可以无条件申请“仅退款”了？淘宝天猫又离狗多多零元购近了一步
2023-12-28 18:57:55
印度以打击金融犯罪为由逮捕了两名 vivo 高管
2023-12-26 16:49:01
在国外微信收不到国内信息？微信和WeChat将被拆分
2023-12-15 10:40:15
苹果iPhone15 系列手机发布最新消息预计上市发布时间9月
2023-08-06 23:21:02
华为将发布鸿蒙HarmonyOS4操作系统功能五大升级支持设备清单
2023-08-06 23:17:37
整治自媒体网红账号 400万粉丝网红发布擦边视频被无限期封禁
2023-07-12 09:56:09
网传微信文件传输助手是真人是真的吗?微信官方回应
2023-06-27 15:53:32
电信移动送手机成了“信用购”？你上了运营商的贷款套路了吗？
2023-06-12 17:18:55
中国电信广东地区崩了无信号客服回应已在核实处理
2023-06-08 15:39:04
消息称小米新能源汽车价格表正讨论定价区间：双版本不同配置，高配或超 35 万元
2023-03-06 12:56:03
华为因制裁被传或分拆剥离手机业务? 内部人士回应:可能性不大.
2023-03-05 23:26:41
OPPO正式发布安第斯智能云，让终端更智能
2023-02-24 16:02:27
华为与OPPO签订全球专利交叉许可协议包括5G蜂窝通信专利
2023-02-24 16:02:26
老蛙将推MINI镜头新品：目前未知具体规格官宣将于12月20日发布
2023-02-24 16:02:26
首发全新35mm定制光学系统努比亚Z50性能同样强悍
2023-02-24 16:02:25
Redmi K60屏幕细节曝光：全系标配2K护眼柔性直屏+5000mAh大容量电池
2023-02-24 16:02:25
OPPO Find N2今天发合金金属折叠屏更轻了
2023-02-24 16:02:24

AI 终于能生成流畅 3D 动作片了，不同动作过渡衔接不出 bug，准确识别文本指令

用编码器"记住"前一个动作

比 TEMOS 效果更好

作者介绍

品牌选车