Google让机器人抓握技巧更像人，在杂乱中抓取目标前还会先捞一捞最新消息

Google让机器人抓握技巧更像人，在杂乱中抓取目标前还会先捞一捞

消息来源:baojiabao.com 作者: 发布时间：2024-05-17

报价宝综合消息Google让机器人抓握技巧更像人，在杂乱中抓取目标前还会先捞一捞

抓握物体对人类来说是很简单的工作，要教会机器人却相当不容易，Google先是发表不需要人工设定轨迹，就能抓取特定物体的研究，现在还要让机器人行为更像人，可以让机器人从一大群杂乱的物体中，像人一样捞出目标物，或是推开阻碍抓取目标的物体，再进行抓取物体。透过称为QT-Opt的算法，可以使用较少的训练资料就能达到更好的成效，由于真实的机器人资料难以收集，因此这对于机器人学习是很令人振奋的事。

目前机器人系统都只能在生产线上建置产品，这类受控环境中执行重复性任务的工作。而要机器人观察周围环境并决定出最佳行动方案，同时对于意想不到的结果做出反应，Google提到，要教机器人这种概括不同现实世界物体和情境的能力非常困难。

目前有两种工具可以提供机器人类似的能力，第一种是深度学习，可以处理非结构化现实场景，另一种则是增强学习，让机器人拥有更长期的推理，并展现强大的顺序决策能力。Google表示，结合这两项技术可以让机器人自行从经验中不断的学习，而不需要手动工程控制机器人的基本运动。但即便有了这个方向，前进的路途仍然充满挑战，真实世界物体具有各种不同的外观以及物理特性，即便是接触力细微的不同，都会让预测物体移动变的困难，甚至可能造成视觉上的阻挡。此外，机器人感测器的资料噪声很多，同时也增加了资料应用的复杂度。

这些原因使得要发展出一个通用型的解决方案变得不容易，除非有足够的时间收集多样的训练资料，但由于收集机器人的训练资料非常困难，促使了研究团队往开发更强大的学习算法前进，最好能够重复使用过去的经验，直接从大型资料集中获得必要的资源。但是这些还不够，机器人还需要能推断行为带来的长期后果，这对于掌握技能至关重要，

Google为此使用了新政策（Off-policy）增强学习，这个设计能让学习算法从大量过去多元的互动中，获取有用的经验，Google使用拟合深度Q-learning算法结合大规模分散式最佳化，发展出称为QT-Opt的算法，这个分散式学习算法支援连续动作空间，非常适合用来解决机器人的问题。

Google使用收集来的资料，在不需要实际控制机器人的情况下离线训练模型，模型训练完成后再部署到真实机器人上进行微调，而在执行QT-Opt算法的同时，也能累积更多可用于训练模型的离线资料。为了将这个算法用于机器人抓握，Google以7个真实机器人，在4个月内运行800小时，而且为了加速资料收集，他们先使用人工设计的政策，在15-30％的运行时间都能成功执行任务后，再将资料收集切换到训练模式。该政策是拍照并回传机械手臂的动作，离线资料包含抓取一千种不同物体的资讯。

由于跨机器人的抓取经验可以互相分享，7个机器人共享58万次的大型抓握资料集，最后研究团队获得了一个真实世界机器人的抓握政策，从数量上来看，QT-Opt算法在没看过的物体进行700次的抓握，达96％的成功率，比先前监督学习抓握法的成功率78％，错误率下降了5倍。

当一群物体组成一个闭锁环状时，机器人自动发展出在捡取特定物体之前，先推开其他物体，再进行抓取。另外，当机器人第一次尝试抓取物体失败时，会改变方向重新定位后，再次进行抓取直到成功。当机器人要从一大群物体中抓取特定物体时，会先在物体中捞一捞，直到可以抓住目标为止。而且当人们故意将机器人抓住的物体拍落时，机器人也会自动重新定位后，再次捡起物体。

而这些类似人类操作物体的行为都不是人工设计的，而是系统以QT-Opt自我监督训练下学习的。Google还提到，QT-Opt能够使用更少的训练资料，达到更好的训练成效，这对于训练瓶颈通常在于收集训练资料的机器人研究，是一件令人兴奋的发现。而QT-Opt是一种通用的增强学习方法，用途并不仅限于机器人抓握，未来他们还会继续使用在其他机器人研究上。

2018-07-02 16:31:00

Google让机器人抓握技巧更像人，在杂乱中抓取目标前还会先捞一捞

品牌选车