AI趋势周报第156期：参数破兆！Google发表新NLP预训练模型Switch Transformer最新消息

Google Brain发表一项研究，经稀疏技术来改善多专家模型（MoE），将原Transformer中的密集前馈神经网络（FFN）改为Switch FFN层。

图片来源:

Google Brain

重点新闻(0115～0121)

NLP模型 Switch Transformer 参数

参数破兆！Google发表NLP预训练模型新作，号称成本不变但更快速

Google Brain近日发表一款自然语言处理（NLP）预训练模型Switch Transformer，具1.6兆参数，正式揭开NLP模型参数上兆等级的序幕。近年来，NLP预训练模型参数量不断飙升，去年OpenAI发表超大通用NLP模型GPT-3，把参数带到千亿等级，而现在，在这流行拥肿的趋势上，Google新模型直接跃升兆等级。不过Google称，训练Switch Transformer的硬件成本并未飙升，而且训练时间更短。

这是因为，Google用稀疏技术简化了多专家算法（Mixture of Experts，MoE），来有效整合资料、模型和不同专家算法的平行处理。与Google先前发布的大型NLP模型T5-XXL相比，这个新方法在成本可控的同时，还能将Switch Transformer的训练时间缩短为四分之一。

Google进一步说明，现有许多简化的深度学习架构，准确率比复杂算法还要高，但这些简化架构往往需要巨量资料集、更大量的参数和更高的运算成本。再加上，这些模型常重复使用同样的参数，来分析所有输入值，而MoE模型则使用不同参数，改善效率问题。Google看上这个优点，采MoE来训练大型语言模型，还同时搭配稀疏分析方法，来进一步简化MoE模型，突破MoE模型难以扩展的瓶颈。在Switch Transformer的编码器中，团队将原本Transformer架构的密集前馈神经网络（FFN）拿掉，改为稀疏Switch FFN层，可独立处理序列中的Tokens。

团队表示，这个模型应用于大规模训练时，能确保参数随装置数增加而增加的同时，在每个装置上仍保持可控的内存和运算历史纪录。而且，团队发现，用32个TPU核心和C4资料集来预训练Swtich Transformer，不仅所需的运算成本低于其他MoE模型，准确率还更高。（详全文）

FDA AI医材软件 SaMD

2年酝酿，美FDA终于发布AI医材软件法规行动计划

经过2年研究，美国食品药物管理局（FDA）日前终于发布第一套AI/ML医材软件（Software as a Medical Device，SaMD）法规行动计划，要助-进一步监管AI软件医材的使用。

该计划点出了FDA未来将采取的5大方向，首先是进一步发展现有法规框架，比如针对机器学习软件的长期学习时间，制定出变化控制计划，并发布指引草案。再来是支援发展良好的机器学习实作方法，来评估、改善机器学习算法。第三则是推动以病人为中心的实作方法，包括让使用者了解装置数据收集的用途。第四点是发展用来评估和改善机器学习算法的方法，最后则是推动真实世界的AI SaMD效能监控试点计划。（详全文）

NAS 类神经网络架构 德州大学

不必训练就能找到最佳架构！德州大学发表无须训练的NAS方法

德州大学奥斯汀分校发表一项新优化方法TE-NAS，号称不需训练就能找出最佳的类神经网络架构，也就是无须训练的NAS方法，来降低建模所需的时间和成本。团队指出，目前市面上有无数种类神经网络架构和各种变形，供AI开发者使用，但开发者往往要为特定任务，来手动找出最合适的类神经网络架构。但手动寻找需耗费大量时间来不断试错，为加速这个过程，出现了类神经网络架构搜寻（NAS）方法，可自动找出表现最好的类神经网络。

但NAS不是万灵丹，它需要大把时间来训练超网，或密集评估各种架构。因此，德州大学团队研发TE-NAS，来解决问题。进一步来说，该方法结合了两个指标，包括神经正切内核（NHK）条件和输入空间的线性区域数量，再加上一套新颖的剪枝方法，来取得两者的时间平衡。经实验，TE-NAS以ImageNet上使用DARTS找出最佳类神经网络，只需要4个GPU小时，且保持不错的准确率。该研究已获AI顶级年会ICRL 2021接受，目前开放同侪评审，而团队也已将程式码开源于GitHub。（详全文）

AI照护 韩国陪伴

韩国-将扩大西大区AI照护者服务名额

韩国-将自今年2月起，扩大AI照护者服务（AI Caregiver Service）名额，从200名扩大至450名，来照顾当地弱势民众。该服务所定单亲家庭、年长者、中年和身障团体，透过AI智慧喇叭来安抚情绪，包括播报新闻、天气、音乐，并与居民聊天。要是AI智慧喇叭侦测到异常迹象，比如在一段时间内通话中断，-办公室的照护管理员就会致电确认，并亲自拜访。此外，遇到紧急情况时，该AI也会启动紧急救护需求，同时给予居民所需的陪伴感受。韩国-将投入2.75亿韩元来推动这项政策。（详全文）

量子电脑 药物开发 分子动力学模拟

Google量子电脑部门取得首家药厂客户

德国药厂百灵佳殷格翰（Boehringer Ingelheim）联手Google量子AI部门，要透过三年合作，用量子运算来研究疾病和新药开发。百灵佳殷格翰也是Google量子运算的第一家药厂客户。

双方将藉Google的量子电脑与算法、百灵佳殷格翰的电脑辅助药学设计和电脑模拟建模（in silico modeling）经验，来研究和实作药学研发的尖端使用情境，特别是分子动力学模拟。百灵佳殷格翰近几年也推动多项数位转型计划，以AI和资料科学来加强对疾病、生物标记、驱动因子以及数位疗法的了解。该公司成立的量子实验室以及旗下创新事业群、IT等部门，也将与Google共同主持这次研究。（详全文）

微软 语音资料 语音转录

语音资料收集政策更透明，微软让用户一窥资料对AI产品的影响

微软更新语音资料收集政策，在用户的同意下，来收集用户使用语音辨识技术服务的录音，供开发人员在研发产品时进行人工审阅，用户也可查看所有被收集的语音片段，以及语音片段对AI系统所做的贡献。

在新的语音片段设定中，用户需要明确同意微软收集语音资料，微软才会将用户的语音资料，用在开发AI产品中。微软及其承包商只会在用户许可的情况，聆听用户贡献的语音，对其他用户来说，微软仍会继续存取用户语音活动的相关资料，如用户与语音辨识系统互动时，自动产生的转录文字。

微软从2020年10月30日之后，就停止储存语音辨识技术处理的语音片段，并在接下来几个月内，会在微软的翻译器、SwiftKey、Windows、Cortana、HoloLens、Mixed Reality和Skype语音翻译等产品，推出新的语音片段配置。当用户同意让微软员工及其承包商，听取语音记录来改善AI技术，微软会保留所有语音资料两年，如果这些语音片段还进一步供人工转录使用，则可能会保留两年以上。（详全文）

穿戴装置 Apple Watch 认知退化

龙头药厂联手苹果，要用穿戴装置揪出失智症征兆

失智症药物龙头大厂百健（Biogen）联手苹果，要以Apple Watch、iPhone等穿戴装置，来探讨这些装置侦测认知衰退的可能性，包括失智症。

进一步来说，Apple Watch具有加速度计、陀螺仪等感测器，可侦测配戴者手部动作，而iPhone也有医疗大规模研究用的Research App，内建供受试者填写问卷等功能。这项研究将于今年展开，研究团队将招募年轻成人至长者，以及不同认知表现的自愿者参加，展开一系列认知表现的研究。这项研究将发展数位生物标记，来长期监控使用者认知表现，以在早期发现轻微认知障碍（MCI）征兆。（详全文）

图片来源／Google Brain、FDA、微软

AI趋势近期新闻

1. AI顶级年会ICLR 2021公布860篇获选论文，开放同侪评审

2. 德国-联手SAP共同创办人，砸上亿欧元建AI重点枢纽

资料来源：iThome整理，2021年1月