AI趋势周报第155期：不求奖励的RL代理就更像人类吗？Google Brain告诉你最新消息

对增强学习（RL）代理来说，奖励机制是学习的重要手段，但设计奖励机制往往耗时耗钱，也容易发生人为错误。于是，Google Brain联手多伦多大学和Vector研究院，以3种常见的人类学习机制vs传统RL的任务奖励机制，来分析AI是否更接近人类。

图片来源:

Danijar Hafner

重点新闻(0108～0114)

增强学习 奖励机制 Google Brain

不求奖励的RL代理就更像人类吗？Google Brain告诉你

对增强学习（RL）代理来说，奖励机制是学习的重要手段，用来鼓励代理探索环境、从尝试错误中找出最佳解法。增强学习的著名案例，包括打败人类围棋冠军的AlphaGo、自学三种棋类且达超人等级的AlphaZero、破解50年蛋白质结构预测难题的AlphaFold，以及近日登上Nature期刊、靠自学精通多种游戏的MuZero。通常，RL被视为迈向通用AI的关键。

但要设计RL代理的任务奖励机制，往往耗时、耗钱，也容易发生人为错误。因此，Google Brain联手多伦多大学和Vector研究院，透过评估3种常见的学习动机机制，来探讨AI是否能像人类婴儿般，只靠内在目标（Intrinsic objective）就能探索世界、找出最佳解法。

这3种机制包含输入熵（Input entropy）、资讯获取（Information gain）、赋权（Empowerment），其中，输入熵是鼓励RL代理接收不常见、稀有的输入值，而资讯获取是用来鼓励代理找出环境规则，赋权则鼓励RL代理，尽可能运用自己对环境或输入值的影响。为评估，团队先建立含不同环境和行为的资料集，再回头计算RL代理的目标值。团队以1亿帧Atari游戏环境画面来训练7种代理（如随机、无指令、近端策略优化（PPO）、随机网络蒸馏（RND）等），并分为有奖励和无奖励两组，而在3D游戏Minecraft中，则用了1,200万帧环境影像来训练。

团队发现，在所有的测试中，3种机制与人类行为的相关性，高于与任务奖励机制的相关性。这说明，如果要让AI更像人类，就得采取接近人类的学习方法。团队同时也指明，目前关于AI可学习的人类行为资料过少，希望能再增加。该研究的资料集和程式码，已于共同作者Danijar Hafner的网站上释出。（详全文）

通用AI 自然语言理解 DeBERTa

离通用AI更近了！微软新一代自然语言理解模型超过人类表现

微软最近揭露一套改良的大型自然语言预训练模型DeBERTa，一样采Transformer架构，具15亿个参数、48个Transformer层，更在自然语言理解基准测试SuperGLUE上超越人类的89.9分，以90.3分拿下第一名。

自Google两年多前发布Transformer超大自然语言预训练模型BERT以来，就陆续出现各种变形，比如TinyBERT、DistilBERT、ALBERT，以及微软的RoBERTa、UniLM。这次，微软改良BERT和RoBERTa，将改良版命名为DeBERTa。DeBERTa有三大新特点，包括分解式注意力机制（Disentangled attention）、强化的遮罩解码器（Mask decoder），还有虚拟对抗训练的微调方法。

有别于BERT只用单一个向量来表示一个字，微软的分解式注意力机制利用两个向量来代表一个字，这两个向量分别代表字的内容与位置。而强化的遮罩解码器，来用来表达一个字的绝对位置，最后，用于微调的虚拟对抗训练方法，则能加强模型泛化能力。微软指出，DeBERTa超越人类的表现，代表离通用AI又更进一步了。未来，微软除了释出具15亿参数的DeBERTa及其程式码，还会将模型整合到微软图灵自然语言表达模型的下一个版本Turing NLRv4中，来支援微软的各种产品。（详全文）

AI监管 法规制定 Open Loop

如何监管AI？脸书发起Open Loop计划，号召全球决策者和科技公司加入

脸书日前发起Open Loop计划，要号召世界各国的政策制定者与科技公司加入，来协助制订AI科技应用的策略。脸书表示，AI技术很难让人全然了解，它对社会的影响也不易掌握，因此需要一个国际组织来研议、提出相关政策的建议。

顾名思义，Open Loop计划是要为政策制定者与政策执行者，建立一个协作、稳健的回馈回路（Loop）。也就是说，Open Loop的目标，是要在新法律规范颁布前，先设计原型并进行模拟测试，来让利害关系人了解现实世界可能发生的状况。脸书强调，政策制定者可与脸书在内的科技公司协作，建立实用的治理框架、讨论出最佳的AI法律规范。（详全文）

微软 医疗对话机器人 Azure Health Bot

微软把AI医疗对话机器人服务搬上Azure云端了！

微软近日释出Azure版的医疗聊天机器人服务Azure Healthcare Bot，用户可在Azure云端使用Healthcare Bot服务，而原有的Healthcare Bot用户，也可将服务直接搬上云。

在疫情期间，微软Healthcare Bot获美国疾管署等医疗机构使用，来回答COVID-19相关问题。现在，微软宣布将Healthcare Bot搬迁到Azure云端服务上，利用云端基础设施来强化Healthcare Bot能力，比如让开发人员以内建的医疗数据库和自然语言理解能力，来大规模建立、部署AI对话系统。Azure Health Bot目前在美东与西欧地区上线，未来还会在8个地区上线。（详全文）

JupyterLab 3.0 视觉化除错 扩充

JupyterLab新版解决扩充套件的重置痛点

热门资料科学工具JupyterLab日前推出第3版，更新了预设的视觉化除错器，并加入目录扩充套件，让使用者查看内容更容易，此外还提供发布扩充套件的新方法。

Jupyter Notebook提供网页互动式运算环境，而JupyterLab是Jupyter Notebook的进阶版，是Jupyter专案的新一代UI，提供文字编辑器、浏览器和终端等功能。JupyterLab 3.0预设提供视觉化除错器，让开发者可在笔记本单元和源代码档案下中断点，还能检视变数、浏览回呼堆叠等各种功能。此外，新版还包括目录扩充套件，用户可在JupyterLab中，使用如Word文件般的目录功能。最后，JupyterLab扩充套件能以预建置的扩充套件发布，这项更新是要解决过去用户，在使用新的扩充套件，就需要重新建置JupyterLab或是安装Node.js的问题。（详全文）

程式语言 Python TIOBE

4度夺冠！Python拿下TIOBE年度程式语言奖

TIOBE近日发布2021年1月的热门程式语言排行榜，首席执行官Paul Jansen指出，Python在2020年的TIOBE Index成长2.01％，是所有程式语言之冠，拿下TIOBE年度程式语言奖第一名。其他得奖的语言包括C、Groovy和R，成长分别为1.66％、1.23％和1.10％。

Python近年表现亮眼，从早期作为Perl的竞争对手，被系统管理员用来编写脚本，到如今已成为资料科学和机器学习领域中最受欢迎的语言。Python这几年持续挑战Java第2名的位置，Paul Jansen表示，Python很快就会取代Java，且会坐稳第2的宝座。他分析，开发者采用Python的两大原因，无非是容易学习且高生产率，而这两特质对于程式设计供不应求的现况非常重要。（详全文）

图片来源／Danijar Hafner、微软、JupyterLab

AI趋势近期新闻

1. AI Labs招募新血！聚焦医疗影像、基因、无人机和NLP等AI领域

2. 国际新创Ninu在CES亮相AI香水App，可自行设计专属香水

3. 拿捏广告预算好难？Appier用AI自动分配热门平台广告预算

资料来源：iThome整理，2021年1月