APP下载

Google让机器人抓握技巧更像人,在杂乱中抓取目标前还会先捞一捞

消息来源:baojiabao.com 作者: 发布时间:2024-05-17

报价宝综合消息Google让机器人抓握技巧更像人,在杂乱中抓取目标前还会先捞一捞

抓握物体对人类来说是很简单的工作,要教会机器人却相当不容易,Google先是发表不需要人工设定轨迹,就能抓取特定物体的研究,现在还要让机器人行为更像人,可以让机器人从一大群杂乱的物体中,像人一样捞出目标物,或是推开阻碍抓取目标的物体,再进行抓取物体。透过称为QT-Opt的算法,可以使用较少的训练资料就能达到更好的成效,由于真实的机器人资料难以收集,因此这对于机器人学习是很令人振奋的事。

目前机器人系统都只能在生产线上建置产品,这类受控环境中执行重复性任务的工作。而要机器人观察周围环境并决定出最佳行动方案,同时对于意想不到的结果做出反应,Google提到,要教机器人这种概括不同现实世界物体和情境的能力非常困难。

目前有两种工具可以提供机器人类似的能力,第一种是深度学习,可以处理非结构化现实场景,另一种则是增强学习,让机器人拥有更长期的推理,并展现强大的顺序决策能力。Google表示,结合这两项技术可以让机器人自行从经验中不断的学习,而不需要手动工程控制机器人的基本运动。但即便有了这个方向,前进的路途仍然充满挑战,真实世界物体具有各种不同的外观以及物理特性,即便是接触力细微的不同,都会让预测物体移动变的困难,甚至可能造成视觉上的阻挡。此外,机器人感测器的资料噪声很多,同时也增加了资料应用的复杂度。

这些原因使得要发展出一个通用型的解决方案变得不容易,除非有足够的时间收集多样的训练资料,但由于收集机器人的训练资料非常困难,促使了研究团队往开发更强大的学习算法前进,最好能够重复使用过去的经验,直接从大型资料集中获得必要的资源。但是这些还不够,机器人还需要能推断行为带来的长期后果,这对于掌握技能至关重要,

Google为此使用了新政策(Off-policy)增强学习,这个设计能让学习算法从大量过去多元的互动中,获取有用的经验,Google使用拟合深度Q-learning算法结合大规模分散式最佳化,发展出称为QT-Opt的算法,这个分散式学习算法支援连续动作空间,非常适合用来解决机器人的问题。

Google使用收集来的资料,在不需要实际控制机器人的情况下离线训练模型,模型训练完成后再部署到真实机器人上进行微调,而在执行QT-Opt算法的同时,也能累积更多可用于训练模型的离线资料。为了将这个算法用于机器人抓握,Google以7个真实机器人,在4个月内运行800小时,而且为了加速资料收集,他们先使用人工设计的政策,在15-30%的运行时间都能成功执行任务后,再将资料收集切换到训练模式。该政策是拍照并回传机械手臂的动作,离线资料包含抓取一千种不同物体的资讯。

由于跨机器人的抓取经验可以互相分享,7个机器人共享58万次的大型抓握资料集,最后研究团队获得了一个真实世界机器人的抓握政策,从数量上来看,QT-Opt算法在没看过的物体进行700次的抓握,达96%的成功率,比先前监督学习抓握法的成功率78%,错误率下降了5倍。

当一群物体组成一个闭锁环状时,机器人自动发展出在捡取特定物体之前,先推开其他物体,再进行抓取。另外,当机器人第一次尝试抓取物体失败时,会改变方向重新定位后,再次进行抓取直到成功。当机器人要从一大群物体中抓取特定物体时,会先在物体中捞一捞,直到可以抓住目标为止。而且当人们故意将机器人抓住的物体拍落时,机器人也会自动重新定位后,再次捡起物体。

而这些类似人类操作物体的行为都不是人工设计的,而是系统以QT-Opt自我监督训练下学习的。Google还提到,QT-Opt能够使用更少的训练资料,达到更好的训练成效,这对于训练瓶颈通常在于收集训练资料的机器人研究,是一件令人兴奋的发现。而QT-Opt是一种通用的增强学习方法,用途并不仅限于机器人抓握,未来他们还会继续使用在其他机器人研究上。

 

2018-07-02 16:31:00

相关文章