AI趋势周报第159期：通用AI另一尝试！脸书用Transformer打造熟练7种任务的AI最新消息

脸书AI研究院用Transformer打造出可同时执行7种任务的AI模型UniT，像是自然语言推理、QA、看图回答、影像辨识等，特别的是，UniT虽以8个资料集训练而成，但有别于传统多任务AI的训练方法，UniT是共用同一套参数，而非以个别任务的参数来微调预训练模型。

图片来源:

脸书AI研究院

重点新闻(0226～0304)

Transformer 通用AI 脸书

离通用AI更近一步！脸书用Transformer打造熟练7种任务的AI

Transformer架构近年屡屡突破ML天花板，比如BERT创下NLP新里程，ViT证实Transformer取代影像生成网络CNN的可能，甚至OpenAI的DALL·E可从自然语言生成图像。但这些代表性模型，都只专注于单一或特定型态（如文字与图像）任务，这不禁让人好奇：我们能否用一个Transformer模型，来处理不同型态的各种任务？

脸书AI研究院近日就以Unified Transformer（UniT）编解码器模型来回答这个问题。UniT以不同领域的任务训练而成，可同时处理7种任务，像是物件辨识、图像和自然语言推理、自然语言理解等。不过，UniT最大的特点在于共用一套参数，而非像传统训练多任务AI的作法，用不同任务参数来微调预训练模型。

脸书的UniT以传统Transformer架构打造，每个输入型态都有其编码器，之后再接一个解码器。进一步来说，UniT的输入型态有两种：文字和图像，首先，UniT的CNN骨干会萃取视觉特征，再用BERT将文字输入值编码进隐藏状态。接着，Transformer解码器会用来处理编码过的型态，最后才将Transformer处理的特征送到特定任务的头，来进行预测。脸书团队用8个资料集来训练UniT，让它学会处理7种任务，且经测试，UniT在各任务接表现出色。（详全文）

Transformer Geoffrey Hinton 类神经网络

如何让AI更懂一张图的千言万语？Google AI大神Hinton：试试融合5种AI的GLOM

获图灵奖殊荣的Google AI巨头Geoffrey Hinton日前发表长达44页的论文，来描写他设想的新AI系统GLOM。这个系统融合时下最先进的5种类神经网络，可分辨一张图像中，部分与整体（Part-whole）的层级概念，目的是要让模型更会解读影像或自然语言。

进一步来说，GLOM融合的5种高阶AI包括Transformer、神经场（Neural fields）、对比特征学习、蒸馏和胶囊网络。Hinton指出，心理学证明，人脑是以影像中的部分与整体层级关系来解读，并对视角不变的空间关系来建模。然而，类神经网络并非如此，因此产生一个难题：一个固定架构的类神经网络，如何分析图中部分与整体的层级关系，而且是在每张图都有不同结构的限制下？

他认为，要回答这个问题，单纯以相同的向量群，来表示分析树中的节点即可。在他的构想中，GLOM架构由大量的柱列（Column）组成，也就是一堆堆的自动解码器；这个柱子可想像成一张图片中的一个方格，向上延伸出的柱子，柱子可分为数层，每层涵盖图片中的一些位置讯息。以一张猫照片为例，假设方格落在猫耳，方格最底层就是猫毛，依序往上为猫耳、猫脸和整只猫等，以此来推断图片中部分与整体的阶层关系。

Hinton表示，GLOM的设计能解决过往CNN等网络的缺点，甚至是他自己研发的胶囊网络。要是GLOM真的可行，将大幅改善Transformer类模型产生的特征解读力，让AI更懂语言和影像。（详全文）

微软 机器学习模型 错误分析

ML模型错在哪秀给你看！微软推出ML可视化错误分析工具包

微软近日推出一套ML模型错误分析工具包Error Analysis，可用来描述和解释ML模型的错误。微软指出，对ML应用开发者来说，在模型部署前先进行严格的评估和测试是必要的过程，但要分析、找出模型缺陷，极其复杂。

为简化这个过程，微软开发出Error Analysis，主打两大功能，也就是先找出错误率高于Benchmark的资料组（Data cohort），再分析错误率较高的原因，让使用者加以改善。进一步来说，Error Analysis使用决策树和热像图来找出错误率较高的资料组，以二分树状图来区分出高错误率的特征，再透过热像图进一步分析其中1、2个作为输入值的关键特征，是如何影响资料组的错误率。

接着，Error Analysis用4个方法来分析错误率高的原因。首先是资料探勘，来探索资料集统计数字和特征分布，再来是总体说明，来解释特征值如何影响模型预测。第3是细部说明，可根据分析所选资料组的资料点，来视觉化呈现预测错误的可能原因，比如缺失值。最后是假设分析，来比较调整后的模型表现。（详全文）

边缘运算系统 国际太空站 HPE

边缘运算系统首次进驻太空站！HPE联手NASA部署在国际太空站

HPE新推出Spaceborne Computer-2国际太空站边缘运算系统，可大幅提高太空站的运算能力，也是将边缘运算系统部署在太空的首例。国际太空站太空人可透过Spaceborne Computer-2，来处理医学影像和DNA定序等运算，也会分析来自太空感测器和卫星的资料，大幅缩短各种太空实验时间。

进一步来说，过去在卫星和国际太空站的数百个感测器，资料都得送回地球才能进一步分析，但现在利用边缘运算，研究员可处理更多机载图像、讯号和资料，更广泛了解地面道路的车流量和停车场汽车数量，更准确预测交通趋势，也可测量大气中的气体和污染物、侦测空气质量等。Spaceborne Computer-2已于2月20日，从地球上发送到NG-15太空站中，将服役2到3年。（详全文）

AWS 品质检验 nbsp; 工业

30张图片就能训练完模型！AWS推出工业瑕疵检测服务

AWS正式发布工业用电脑视觉服务Amazon Lookout for Vision，利用电脑视觉来侦测产品瑕疵，让制造业品质检验工作自动化。AWS这款服务的特点是采用小样本学习，因此只用少数样本，就可训练模型，找出产品瑕疵如裂缝、不规则形状等。

进一步来说，用户可将相机图片发送到Amazon Lookout for Vision服务来辨识异常，找出如产品表面损坏、元件缺失或各种瑕疵，而且，该服务每小时可处理数千张图片。此外，在模型训练部分，用户仅需提供30张正常和异常的图片作为基准，就可开始评估零件或成品状态。在分析资料后，Amazon Lookout for Vision还会在服务仪表板或透过即时API发出通知，让用户采取适当的后续处理。（详全文）

解码器 语音通话 低带宽网络

如何在低带宽网络实现高品质语音通讯？Google有解

Google利用机器学习技术，开发出高品质低位元率的语音编解码器Lyra，可让低带宽网络的语音通话品质变得更好。Google解释，数十年来，编解码器都是媒体应用程序的重要元件，让需要大带宽传输资料的应用程序，能更有效传输资料。但对语音编解码器来说，位元率越低，语音讯号的清晰度就越差，声音也就越像机器人。

为解决问题，Google用数千小时的语音，来训练编解码器和循环生成模型WaveRNN，打造出Lyra，能高效压缩、传输语音讯号，在低带宽中支援高音质语音通讯。由于Lyra采WaveRNN，可以较低的位元率在不同频率范围平行生成多个讯号，在之后以特定的采样频率，结合到单一输出讯号中。如此设计让Lyra可在云端服务器中执行，还可在中阶手机上即时运作，处理延迟约为90毫秒，与其他传统语音编解码器相同。（详全文）

图片来源／脸书、Geoffrey Hinton、Google、微软、AWS

AI趋势近期新闻

1. Google解释电影照片的AI生成技术细节

2. 戴尔首次在海外设置创新中心，聚焦边缘运算、AR和资料分析

3. 微软发表结合硬件与服务的边缘AI运算平台Azure Percept

资料来源：iThome整理，2021年3月