APP下载

AI趋势周报第155期:不求奖励的RL代理就更像人类吗?Google Brain告诉你

消息来源:baojiabao.com 作者: 发布时间:2026-05-24

报价宝综合消息AI趋势周报第155期:不求奖励的RL代理就更像人类吗?Google Brain告诉你

对增强学习(RL)代理来说,奖励机制是学习的重要手段,但设计奖励机制往往耗时耗钱,也容易发生人为错误。于是,Google Brain联手多伦多大学和Vector研究院,以3种常见的人类学习机制vs传统RL的任务奖励机制,来分析AI是否更接近人类。

图片来源: 

Danijar Hafner

重点新闻(0108~0114)

  增强学习    奖励机制     Google Brain  

不求奖励的RL代理就更像人类吗?Google Brain告诉你

对增强学习(RL)代理来说,奖励机制是学习的重要手段,用来鼓励代理探索环境、从尝试错误中找出最佳解法。增强学习的著名案例,包括打败人类围棋冠军的AlphaGo、自学三种棋类且达超人等级的AlphaZero、破解50年蛋白质结构预测难题的AlphaFold,以及近日登上Nature期刊、靠自学精通多种游戏的MuZero。通常,RL被视为迈向通用AI的关键。

但要设计RL代理的任务奖励机制,往往耗时、耗钱,也容易发生人为错误。因此,Google Brain联手多伦多大学和Vector研究院,透过评估3种常见的学习动机机制,来探讨AI是否能像人类婴儿般,只靠内在目标(Intrinsic objective)就能探索世界、找出最佳解法。

这3种机制包含输入熵(Input entropy)、资讯获取(Information gain)、赋权(Empowerment),其中,输入熵是鼓励RL代理接收不常见、稀有的输入值,而资讯获取是用来鼓励代理找出环境规则,赋权则鼓励RL代理,尽可能运用自己对环境或输入值的影响。为评估,团队先建立含不同环境和行为的资料集,再回头计算RL代理的目标值。团队以1亿帧Atari游戏环境画面来训练7种代理(如随机、无指令、近端策略优化(PPO)、随机网络蒸馏(RND)等),并分为有奖励和无奖励两组,而在3D游戏Minecraft中,则用了1,200万帧环境影像来训练。

团队发现,在所有的测试中,3种机制与人类行为的相关性,高于与任务奖励机制的相关性。这说明,如果要让AI更像人类,就得采取接近人类的学习方法。团队同时也指明,目前关于AI可学习的人类行为资料过少,希望能再增加。该研究的资料集和程式码,已于共同作者Danijar Hafner的网站上释出。(详全文)

  通用AI     自然语言理解    DeBERTa  

离通用AI更近了!微软新一代自然语言理解模型超过人类表现

微软最近揭露一套改良的大型自然语言预训练模型DeBERTa,一样采Transformer架构,具15亿个参数、48个Transformer层,更在自然语言理解基准测试SuperGLUE上超越人类的89.9分,以90.3分拿下第一名。

自Google两年多前发布Transformer超大自然语言预训练模型BERT以来,就陆续出现各种变形,比如TinyBERT、DistilBERT、ALBERT,以及微软的RoBERTa、UniLM。这次,微软改良BERT和RoBERTa,将改良版命名为DeBERTa。DeBERTa有三大新特点,包括分解式注意力机制(Disentangled attention)、强化的遮罩解码器(Mask decoder),还有虚拟对抗训练的微调方法。

有别于BERT只用单一个向量来表示一个字,微软的分解式注意力机制利用两个向量来代表一个字,这两个向量分别代表字的内容与位置。而强化的遮罩解码器,来用来表达一个字的绝对位置,最后,用于微调的虚拟对抗训练方法,则能加强模型泛化能力。微软指出,DeBERTa超越人类的表现,代表离通用AI又更进一步了。未来,微软除了释出具15亿参数的DeBERTa及其程式码,还会将模型整合到微软图灵自然语言表达模型的下一个版本Turing NLRv4中,来支援微软的各种产品。(详全文)

  AI监管     法规制定     Open Loop  

如何监管AI?脸书发起Open Loop计划,号召全球决策者和科技公司加入

脸书日前发起Open Loop计划,要号召世界各国的政策制定者与科技公司加入,来协助制订AI科技应用的策略。脸书表示,AI技术很难让人全然了解,它对社会的影响也不易掌握,因此需要一个国际组织来研议、提出相关政策的建议。

顾名思义,Open Loop计划是要为政策制定者与政策执行者,建立一个协作、稳健的回馈回路(Loop)。也就是说,Open Loop的目标,是要在新法律规范颁布前,先设计原型并进行模拟测试,来让利害关系人了解现实世界可能发生的状况。脸书强调,政策制定者可与脸书在内的科技公司协作,建立实用的治理框架、讨论出最佳的AI法律规范。(详全文)

  微软   医疗对话机器人       Azure Health Bot  

微软把AI医疗对话机器人服务搬上Azure云端了!

微软近日释出Azure版的医疗聊天机器人服务Azure Healthcare Bot,用户可在Azure云端使用Healthcare Bot服务,而原有的Healthcare Bot用户,也可将服务直接搬上云。

在疫情期间,微软Healthcare Bot获美国疾管署等医疗机构使用,来回答COVID-19相关问题。现在,微软宣布将Healthcare Bot搬迁到Azure云端服务上,利用云端基础设施来强化Healthcare Bot能力,比如让开发人员以内建的医疗数据库和自然语言理解能力,来大规模建立、部署AI对话系统。Azure Health Bot目前在美东与西欧地区上线,未来还会在8个地区上线。(详全文)

  JupyterLab 3.0     视觉化除错     扩充  

JupyterLab新版解决扩充套件的重置痛点

热门资料科学工具JupyterLab日前推出第3版,更新了预设的视觉化除错器,并加入目录扩充套件,让使用者查看内容更容易,此外还提供发布扩充套件的新方法。

Jupyter Notebook提供网页互动式运算环境,而JupyterLab是Jupyter Notebook的进阶版,是Jupyter专案的新一代UI,提供文字编辑器、浏览器和终端等功能。JupyterLab 3.0预设提供视觉化除错器,让开发者可在笔记本单元和源代码档案下中断点,还能检视变数、浏览回呼堆叠等各种功能。此外,新版还包括目录扩充套件,用户可在JupyterLab中,使用如Word文件般的目录功能。最后,JupyterLab扩充套件能以预建置的扩充套件发布,这项更新是要解决过去用户,在使用新的扩充套件,就需要重新建置JupyterLab或是安装Node.js的问题。(详全文)

程式语言    Python     TIOBE  

4度夺冠!Python拿下TIOBE年度程式语言奖

TIOBE近日发布2021年1月的热门程式语言排行榜,首席执行官Paul Jansen指出,Python在2020年的TIOBE Index成长2.01%,是所有程式语言之冠,拿下TIOBE年度程式语言奖第一名。其他得奖的语言包括C、Groovy和R,成长分别为1.66%、1.23%和1.10%。

Python近年表现亮眼,从早期作为Perl的竞争对手,被系统管理员用来编写脚本,到如今已成为资料科学和机器学习领域中最受欢迎的语言。Python这几年持续挑战Java第2名的位置,Paul Jansen表示,Python很快就会取代Java,且会坐稳第2的宝座。他分析,开发者采用Python的两大原因,无非是容易学习且高生产率,而这两特质对于程式设计供不应求的现况非常重要。(详全文)

图片来源/Danijar Hafner、微软、JupyterLab

 AI趋势近期新闻 

1. AI Labs招募新血!聚焦医疗影像、基因、无人机和NLP等AI领域

2. 国际新创Ninu在CES亮相AI香水App,可自行设计专属香水

3. 拿捏广告预算好难?Appier用AI自动分配热门平台广告预算

资料来源:iThome整理,2021年1月

 
 
 
 
2021-01-14 12:49:00

相关文章