Openai推出了一套工具和环境Safety Gym,帮助他们进行受限增强学习算法。Safety Gym可用来评估增强学习代理人,在训练时尊重安全约束的进展。Openai提到,要将深度学习应用在现实世界中,无论是实际的机器人还是网络技术,人工智能学习时都需要有安全算法,让他们不需要实际经历事故,就可以学会避免危险发生。
增强学习是一个透过探索环境学习最佳行为的方法,需要透过代理人不停地试错来运作,在代理人尝试一些行为之后,判断有效与无效的行为,增加良好行为的可行性,并减少无效行为的可能性,以达到最终设定的目标。但Openai提到,探索本身就是危险的事,代理人可能尝试了无法接受的危险行为。
而这衍生出安全探索(Safe Exploration)的议题,Openai表示,安全探索的具体作法便是受限(Constrained)增强学习,受限增强学习与普通增强学习相似,只是代理人除了要最大化奖励函式之外,环境还需要增加了成本函式来限制代理人,像是要自动驾驶汽车从A点开到B点,受限增强学习能够约束自动驾驶行为以符合交通规则。
Openai表示,普通增强学习的一大问题是,代理人的最终行为,都由奖励函式来描述,但是从根本来说,奖励设计非常困难,因为需要权衡的任务效能以及安全性要求,是两个互相竞争目标,但是在受限增强学习则不需要做出取舍,而是选择结果,由算法算出人类想要的结果。
为了要研究受限增强学习,Openai推出了一系列称为Safety Gym的工具和环境,相较于现存的受限增强学习的环境,Safety Gym提供更丰富的学习环境,具有更大的难度以及复杂度范围。在Safety Gym中,机器人必须要在混乱的环境中达成任务,预设有Point、Car和Doggo(下图)三种机器人,以及达成目标、按钮和推三种预设主要任务。
作为开放给社群的研究基础,Openai在Safety Gym基准套件上测试了普通增强学习以及受限增强学习算法,Openai提到,他们初步的结果显示,Safety Gym可用来进行广泛困难度的增强学习算法测试。
(下图)PPO和TRPO为普通的增强学习算法,同时Openai也为这两种算法加入应用拉格朗日力(Lagrangian)的版本,作为安全性惩罚成本以限制其最佳化,而CPO(Constrained Policy Optimization,CPO)则为受限的增强学习。
Openai意外发现,在Safety Gym环境中,应用拉格朗日力(Lagrangian)方法的算法,竟比CPO的表现还要好上许多,而这推翻了过去的研究结果。为了帮助研究人员可以快速上手实验,Openai释出了实验所用的代理人实作。
接下来,Openai提到,他们会改进受限增强学习,并与其他问题设定和安全技术结合,Openai提到,他们希望Safety Gym除了能够量化精确度和效能之外,未来还能量化安全性,如此-便可能将这套评估方案,用来建立安全标准。
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11
最新资讯
- YouTube更新违反规定政策,提升惩处透明度和一致性2023-12-31 14:00:52
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
- 吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市 预售价格22.99万元2023-12-28 19:30:28
- 日本丰田汽车厂11月全球产量创新高2023-12-28 19:26:02
手机
- 中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
- 荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
- 美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
- 苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
- 香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
- 华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
- 腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
- 三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
- 三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
- vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
- 中兴受美国制裁事件 被罚了20亿美元过程事件始末 中兴被制裁后公司现状2023-11-02 22:12:46
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09