APP下载

AI趋势周报第156期:参数破兆!Google发表新NLP预训练模型Switch Transformer

消息来源:baojiabao.com 作者: 发布时间:2024-05-21

报价宝综合消息AI趋势周报第156期:参数破兆!Google发表新NLP预训练模型Switch Transformer

Google Brain发表一项研究,经稀疏技术来改善多专家模型(MoE),将原Transformer中的密集前馈神经网络(FFN)改为Switch FFN层。

图片来源: 

Google Brain

重点新闻(0115~0121)

  NLP模型     Switch Transformer     参数  

参数破兆!Google发表NLP预训练模型新作,号称成本不变但更快速

Google Brain近日发表一款自然语言处理(NLP)预训练模型Switch Transformer,具1.6兆参数,正式揭开NLP模型参数上兆等级的序幕。近年来,NLP预训练模型参数量不断飙升,去年OpenAI发表超大通用NLP模型GPT-3,把参数带到千亿等级,而现在,在这流行拥肿的趋势上,Google新模型直接跃升兆等级。不过Google称,训练Switch Transformer的硬件成本并未飙升,而且训练时间更短。

这是因为,Google用稀疏技术简化了多专家算法(Mixture of Experts,MoE),来有效整合资料、模型和不同专家算法的平行处理。与Google先前发布的大型NLP模型T5-XXL相比,这个新方法在成本可控的同时,还能将Switch Transformer的训练时间缩短为四分之一。

Google进一步说明,现有许多简化的深度学习架构,准确率比复杂算法还要高,但这些简化架构往往需要巨量资料集、更大量的参数和更高的运算成本。再加上,这些模型常重复使用同样的参数,来分析所有输入值,而MoE模型则使用不同参数,改善效率问题。Google看上这个优点,采MoE来训练大型语言模型,还同时搭配稀疏分析方法,来进一步简化MoE模型,突破MoE模型难以扩展的瓶颈。在Switch Transformer的编码器中,团队将原本Transformer架构的密集前馈神经网络(FFN)拿掉,改为稀疏Switch FFN层,可独立处理序列中的Tokens。

团队表示,这个模型应用于大规模训练时,能确保参数随装置数增加而增加的同时,在每个装置上仍保持可控的内存和运算历史纪录。而且,团队发现,用32个TPU核心和C4资料集来预训练Swtich Transformer,不仅所需的运算成本低于其他MoE模型,准确率还更高。(详全文)

  FDA     AI医材软件    SaMD  

2年酝酿,美FDA终于发布AI医材软件法规行动计划

经过2年研究,美国食品药物管理局(FDA)日前终于发布第一套AI/ML医材软件(Software as a Medical Device,SaMD)法规行动计划,要助-进一步监管AI软件医材的使用。

该计划点出了FDA未来将采取的5大方向,首先是进一步发展现有法规框架,比如针对机器学习软件的长期学习时间,制定出变化控制计划,并发布指引草案。再来是支援发展良好的机器学习实作方法,来评估、改善机器学习算法。第三则是推动以病人为中心的实作方法,包括让使用者了解装置数据收集的用途。第四点是发展用来评估和改善机器学习算法的方法,最后则是推动真实世界的AI SaMD效能监控试点计划。(详全文)

  NAS     类神经网络架构    德州大学  

不必训练就能找到最佳架构!德州大学发表无须训练的NAS方法

德州大学奥斯汀分校发表一项新优化方法TE-NAS,号称不需训练就能找出最佳的类神经网络架构,也就是无须训练的NAS方法,来降低建模所需的时间和成本。团队指出,目前市面上有无数种类神经网络架构和各种变形,供AI开发者使用,但开发者往往要为特定任务,来手动找出最合适的类神经网络架构。但手动寻找需耗费大量时间来不断试错,为加速这个过程,出现了类神经网络架构搜寻(NAS)方法,可自动找出表现最好的类神经网络。

但NAS不是万灵丹,它需要大把时间来训练超网,或密集评估各种架构。因此,德州大学团队研发TE-NAS,来解决问题。进一步来说,该方法结合了两个指标,包括神经正切内核(NHK)条件和输入空间的线性区域数量,再加上一套新颖的剪枝方法,来取得两者的时间平衡。经实验,TE-NAS以ImageNet上使用DARTS找出最佳类神经网络,只需要4个GPU小时,且保持不错的准确率。该研究已获AI顶级年会ICRL 2021接受,目前开放同侪评审,而团队也已将程式码开源于GitHub。(详全文)

  AI照护   韩国       陪伴  

韩国-将扩大西大区AI照护者服务名额

韩国-将自今年2月起,扩大AI照护者服务(AI Caregiver Service)名额,从200名扩大至450名,来照顾当地弱势民众。该服务所定单亲家庭、年长者、中年和身障团体,透过AI智慧喇叭来安抚情绪,包括播报新闻、天气、音乐,并与居民聊天。要是AI智慧喇叭侦测到异常迹象,比如在一段时间内通话中断,-办公室的照护管理员就会致电确认,并亲自拜访。此外,遇到紧急情况时,该AI也会启动紧急救护需求,同时给予居民所需的陪伴感受。韩国-将投入2.75亿韩元来推动这项政策。(详全文)

  量子电脑    药物开发    分子动力学模拟  

Google量子电脑部门取得首家药厂客户

德国药厂百灵佳殷格翰(Boehringer Ingelheim)联手Google量子AI部门,要透过三年合作,用量子运算来研究疾病和新药开发。百灵佳殷格翰也是Google量子运算的第一家药厂客户。

双方将藉Google的量子电脑与算法、百灵佳殷格翰的电脑辅助药学设计和电脑模拟建模(in silico modeling)经验,来研究和实作药学研发的尖端使用情境,特别是分子动力学模拟。百灵佳殷格翰近几年也推动多项数位转型计划,以AI和资料科学来加强对疾病、生物标记、驱动因子以及数位疗法的了解。该公司成立的量子实验室以及旗下创新事业群、IT等部门,也将与Google共同主持这次研究。(详全文)

微软    语音资料     语音转录  

语音资料收集政策更透明,微软让用户一窥资料对AI产品的影响

微软更新语音资料收集政策,在用户的同意下,来收集用户使用语音辨识技术服务的录音,供开发人员在研发产品时进行人工审阅,用户也可查看所有被收集的语音片段,以及语音片段对AI系统所做的贡献。

在新的语音片段设定中,用户需要明确同意微软收集语音资料,微软才会将用户的语音资料,用在开发AI产品中。微软及其承包商只会在用户许可的情况,聆听用户贡献的语音,对其他用户来说,微软仍会继续存取用户语音活动的相关资料,如用户与语音辨识系统互动时,自动产生的转录文字。

微软从2020年10月30日之后,就停止储存语音辨识技术处理的语音片段,并在接下来几个月内,会在微软的翻译器、SwiftKey、Windows、Cortana、HoloLens、Mixed Reality和Skype语音翻译等产品,推出新的语音片段配置。当用户同意让微软员工及其承包商,听取语音记录来改善AI技术,微软会保留所有语音资料两年,如果这些语音片段还进一步供人工转录使用,则可能会保留两年以上。(详全文)

穿戴装置    Apple Watch     认知退化  

龙头药厂联手苹果,要用穿戴装置揪出失智症征兆

失智症药物龙头大厂百健(Biogen)联手苹果,要以Apple Watch、iPhone等穿戴装置,来探讨这些装置侦测认知衰退的可能性,包括失智症。

进一步来说,Apple Watch具有加速度计、陀螺仪等感测器,可侦测配戴者手部动作,而iPhone也有医疗大规模研究用的Research App,内建供受试者填写问卷等功能。这项研究将于今年展开,研究团队将招募年轻成人至长者,以及不同认知表现的自愿者参加,展开一系列认知表现的研究。这项研究将发展数位生物标记,来长期监控使用者认知表现,以在早期发现轻微认知障碍(MCI)征兆。(详全文)

图片来源/Google Brain、FDA、微软

 AI趋势近期新闻 

1. AI顶级年会ICLR 2021公布860篇获选论文,开放同侪评审

2. 德国-联手SAP共同创办人,砸上亿欧元建AI重点枢纽

资料来源:iThome整理,2021年1月

 
 
 
 
2021-01-21 12:50:00

相关文章