报价宝 > 科技 >

玩个锤子李飞飞夫妇团队的最新研究

消息来源:baojiabao.com 作者: 发布时间：2026-05-28

报价宝综合消息玩个锤子李飞飞夫妇团队的最新研究

机械栗发自凹非寺

量子位报道 | 公众号 QbitAI

锤子是一个神奇的工具，各种画风都能驾驭。

比如，神族玩锤子是这样。

兽族玩锤子是这样。

人族嘛……

误。

回归正片，今天来看看，机器人玩（个）锤子，且是自学成才，会有怎样的画风？

今天的机器人主角，诞生在斯坦福李飞飞夫妇的实验室里，拥有花样锤技，还被机器人顶会RSS 2018选中了。

关于锤技，先看两个小栗子。

任务一：把钉子敲进木盒

人类只告诉机器人这个任务，没有其他多余的指示。使用什么工具，用什么姿势完成，全靠机器人自己判断。

它发现了桌上的一把锤子。

于是，抓起锤子的把手，把钉子敲了进去。

完成。

任务二：清除桌面的易拉罐

同样，人类只告诉机器人这个任务，没有其他多余的指示。使用什么工具，用什么姿势完成，全靠机器人自己判断。

于是，它又抓起了桌上的锤子。

同样完成。

注意，两个不同的任务，握锤姿势不一样（不一样……）

这个机智的机器人，能够根据不同的任务，决定应该如何握住手里的锤子，以及用什么方式完成指定的任务。

其实，就算是它从来没见过的、骨骼清奇的锤子，也是一眼就会玩。

锯都算上了，但这也只是很小的一部分。

而且，机器人脑子里的神经网络，是自我监督学习的，不需要人类传授什么秘籍。

这只为了任务定制抓取姿势的机器人，是如何修炼成仙的？

先审题，再行动

从前的机器人，大多是用保守的方式抓取工具——抓质心最稳。

简单粗暴，但这并不一定适合它下一步要完成的操作。

左为两眼一抹黑，右为找得着北

毕竟，钉子要完全敲进去，易拉罐要掉下桌面去，才算成功。

所以，抓取的牢固程度，与适合任务的程度之间，需要一些妥协。

为了让机器人，在执行任务的时候更有针对性，斯坦福团队制定了四步方略如下——

一是，机器人要懂得，人类希望的结果是什么。

二是，机器人要识别物体的特征，知道它是好用的工具。

三是，找到合适的抓握方向，才能更有效地做任务。

四是，去吧，皮卡丘。

知之为知之，审题真的有用。

神经网络两步走，一抓取二操作

(灰色竖线) 机器人：

咦，任务是扫桌

咦，锤子长这样

咦，这姿势不错

咦，易拉罐没了

为了让机器人选择正确的姿势，执行特定的任务，团队设计的神经网络结构，也并非一步登天。

TOG = 任务导向的抓取

这个名叫TOG-Net的神经网络，可以同时训练两个模型——

一是抓取模型，二是操作模型，对应每个任务 (锤击/扫除) 的两个阶段。

优秀的抓取姿势，是任务成功的一半。

给神经网络输入一幅图，它就会提出几种抓取姿势。

抓取模型会为每个姿势算出一个分数，代表抓取质量。

选择分数最高的一种姿势，给机器人去执行，并且把这个姿势发送给操作模型。

这样一来，系统就能根据已经采取的动作，来规划后面的动作。

步步为营。

虚拟的训练，现实的测试

神经网络不是直接在真实世界里训练的，而是在一个名叫“Bullet(子弹) ”的开源物理模拟器里训练的。

虚拟世界里，机器人可以尝试无数次失败，修炼出锤子的使用技能。

虽然，团队也在思考，是不是直接进三次元修炼，也会同样有效。

模拟器可以生成大量的模拟数据。

比如，这样那样的锤子。大体分为三类，T型、L型、X型。

当然，现实更复杂，所以，混合型也要包含进去。

除了工具之外，抓取姿势的数据也非常重要，难点也在这里。

因为，姿势采样的时候，抓握的点大多集中在工具的长边上。许多姿势之间，距离都非常小，太相似了，多样性又不够。

适用于扫除的姿势，作用点就不在长边上

于是，团队用了物体识别中，常见的非极大抑制(NMS) 方法，去除了一些与高分姿势非常相近的姿势。

这样，训练集里面的姿势各不相同，对训练来说更有力。

另外，自我监督学习机制，会用每一次抓取成功和任务成功的标签，来指导训练过程。

当然，模拟器终究是模拟器，最后还是要把训练成果搬到现实里来。

三次元里，机器人的夹具，是依靠深度摄像头的点云来工作的。

像这样，稍稍超出常理的“锤子”，机器人还会给它转体180度，再扫掉易拉罐。

驾轻就熟。

成果，万变不离其宗

其实，来这里的路上，各位已经陆陆续续看过一些测试的效果了。

不过，还是要强调，以下这些锤子，机器人在训练的时候，都没见过。

T型锤的扫除玩法。

L型锤的敲钉玩法。

混合锤，就是刚才那只绿色脑袋的奇怪物体，再出现一次。

要打架么

隐隐感觉，机器人看到这样不科学的工具，还是有些情绪。

不过，内心戏放在一边，研究人员对AI和机器人一起做的任务，还是很满意的。

除了直观地看出，碾压了某不知任务的算法，数据也很硬——

不管锤子是T型，L型，还是奇型。

也不管任务是锤击，还是扫除。

成功率都比忽略任务的同行，高出许多。

实验室里的人类们

这项研究的团队主要来自斯坦福计算机视觉与学习实验室（SVL Lab），包括李飞飞、Silvio Savarese，和他们的学生们。

房宽

论文的第一作者房宽是斯坦福大学读博士，师从Silvio Savarese。在进入斯坦福大学之前，他在清华大学读完了本科，当时曾经在微软亚洲研究院机器学习组实习。

房宽在个人主页上透露，去年夏天，他是在Google [X] Robotics度过的；而今年暑假，他要去Google Brain实习了~

其他几位作者也都来自斯坦福大学，其中二作Yuke Zhu和Animesh Garg都是李飞飞和Savarese的学生，而Andrey Kurenkov师从Silvio和Ken Goldberg。

而最后两位作者，也就是指导这项研究老师们，你们应该都很熟悉啦。

一位是计算机视觉界的国民女神李飞飞：

另一位，是她的丈夫，同是斯坦福大学副教授的Silvio Savarese。

不知道这张实验室全家福里，有没有你熟悉的身影：

传送门

Learning Task-Oriented Grasping for Tool Manipulation from Simulated Self-Supervision

Kuan Fang, Yuke Zhu, Animesh Garg, Andrey Kurenkov, Viraj Mehta, Li Fei-Fei, Silvio Savarese

*https://arxiv.org/abs/1806.09266

—完—

2018-07-05 14:31:00

文章标签: 报价宝降噪耳机价格耳机价格红米手机价格华为手机价格小米手机价格电视机价格笔记本电脑价格笔记本价格汽车价格数码相机价格汽车价格笔记本电脑价格小米手机价格华为手机价格

B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了？技术团队公开早先原因
2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强？答案揭晓
2023-02-19 15:09:54
华为荣耀两款机型起内讧：荣耀Play官方价格同价同配该如何选？
2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格：刘海屏设计顶配版曾卖6900元
2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假浮夸不能只罚酒三杯
2023-02-17 18:46:15
华为mate20pro系列手机首发上市日期价格，屏幕和电池参数配置对比
2023-02-17 18:42:49
小米MAX4手机上市日期首发价格骁龙720打造大屏标准
2023-02-17 18:37:22
武汉弘芯遣散!结局是总投资1280亿项目烂尾光刻机抵押换钱
2023-02-16 15:53:18
谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠
2023-02-16 13:34:45
巴斯夫将裁员6000人众化工巨头裁员潮再度引发关注
2023-02-13 16:49:06
人手不足韵达快递客服回应大量包裹派送异常没有收到
2023-02-07 15:25:20
资本微念与李子柒销声匿迹谁赢？微念公司退出子柒文化股东
2023-02-02 09:24:38
三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办
2023-01-24 10:10:02
华为Mate50 RS保时捷最新款顶级手机2022多少钱？1.2万元售价外观图片吊打iPhone14
2023-01-06 20:27:09
芯片常见的CPU芯片封装方式 QFP和QFN封装的区别？
2022-12-02 17:25:17
华为暂缓招聘停止社招了吗?官方回应来了
2022-11-19 11:53:50
热血江湖手游：长枪铁甲刚猛热血正派枪客全攻略技能介绍大全
2022-11-16 16:59:09
东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?
2022-10-22 15:21:55
苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次
2022-10-03 22:13:45
苹果美版iPhone可以在中国保修从哪看怎么查询iPhone的生产日期？
2022-09-22 10:00:07

玩个锤子 李飞飞夫妇团队的最新研究

品牌选车

玩个锤子李飞飞夫妇团队的最新研究