脸书
重点新闻(0219~0225)
推荐模型 模型压缩 脸书
推荐模型太大跑不动?脸书最新压缩术让模型缩小成百分之一
脸书联手乔治亚理工学院(Georgia Tech),发表一项推荐模型缩小术,可将模型大幅压缩至原本的112分之一,且表现不受太大影响。这个方法叫做TT-Rec,是深度学习推荐模型(DLRM)张量训练的缩写,TT-Rec专门用来缩小耗费内存的推荐模型,让大规模部署变得更容易。它的创新之处,在于用张量分解(Tensor train decomposition)的矩阵乘积序列,来取代推荐模型的大型嵌入表(Embedding table)。
推荐模型几乎是内容大厂的标配,比如YouTube、Netflix、脸书等,其中,推荐模型由2大部分组成:多层感知器(MLP)和嵌入表。MLP负责处理连续性特征,如使用者年纪,嵌入表则将稀疏、高维度的输入值,编码成高密度的向量示例,来处理类别型的特征。但现今产业所用的推荐模型嵌入表,内存耗费量从GB等级跃升到TB等级,以脸书的推荐模型来说,光是嵌入表就占了99%的容量,若加入新的推荐模型,所需的内存容量又会成指数成长。
为解决问题,团队设计了TT-Rec压缩技术,用张量分解来取代嵌入表。团队比喻,这个方法就像是用查询表(Lookup table)来换取内存容量和带宽。为评估,团队训练了MLPerf-DLRM,用TT-Rec后可缩小为原本的112分之一,而训练时间只增加13.9%。目前TT-Rec已于GitHub上开源。(详全文)
云象 全玻片辨识 Nature Communications
不必再切割和标注了!云象新方法让电脑一次就懂上亿画素的病理全玻片影像
数位病理AI新创云象科技费时3年研究,终于找出新方法突破算力障碍,让深度学习模型可以上亿画素的全玻片影像来训练、判读,不必像过去要切割影像才能做得到;这个研究成果,最近也登上国际顶级期刊Nature Communications。
云象科技首席执行官叶肇元指出,数位病理AI一直有个瓶颈,也就是难以完整的病理全玻片影像来训练。这是因为,全玻片影像是由许多显微镜下放大的视野拼接,分辨率可达数十亿,要用这些影像来训练深度学习模型,非常耗费内存和时间。而传统方法是将影像切割为多个区块(Patch),以低画素(如256*256或512*521)影像来训练模型、让模型判读。但这个方法,需要在每个区块进行标注,因此相当耗费医师人力。
于是,云象决定找出方法,让AI模型可用未标注的全玻片影像来训练,并进行判读。他们先是解决内存问题,在训练阶段,让电脑不只运用GPU内存,还加上系统内存来一起解析影像。接着,他们再以资料搬迁方法,来解决速度慢的问题,比如优化算图(Computation graph)、将计算工作分群分阶段,降低资料在GPU和系统间搬迁的频率,此外,他们也采用Pre-fetch,将下一阶段所需的资料,提前搬到GPU内存。最后,他们运用科技部巨量医疗影像计划中的9,000多张肺癌影像资料集,用近5亿画素的全玻片影像来训练AI模型并辨识癌症和分类,发现AUC高达0.959,优于现有最佳方法。这个成果的意义,不只AI全玻片影像训练和判读,更重要的是不需人为标注。 (详全文)
Transformer 蛋白质 长序列
Transformer不只突破NLP天花板,还完胜蛋白质预测权威方法
“这是Transformer架构的巨大进展!”脸书AI首席科学家、CNN之父Yann LeCun日前在Twitter上写道。这次,脸书AI研究院联手柏克莱大学和纽约大学,利用Transformer来预测蛋白质接触的结构变化,而且,输入值不只单一个蛋白质序列,而是好几个。
3年前,Transformer架构因Google BERT声名大噪,在NLP领域写下里程碑。这次,脸书团队用Transformer来解决半世纪难题:蛋白质结构预测。一般来说,蛋白质结构预测常用神经波茨模型(Neural Potts Models),透过共享参数来模拟多个蛋白质家族的分布,后来因未标注序列资料集的诞生,延伸出另一种新方法,也就是非监督学习的蛋白质语言模型。但缺点是,它一次只能输入一个蛋白质序列,因此需要大量参数。
为解决问题,脸书团队开发MSA Transformer模型,能一次输入好几对对齐的蛋白质序列,并跨序列家族共享参数。简单来说,团队把Transformer预训练扩展到MSA算法上,将Transformer强大的配对能力用来对应序列内的交互作用,成为残基对残基的对应图。经测试,团队发现MSA Transformer模型在非监督蛋白质接触预测上,完胜现有高阶蛋白质语言模型和传统的Potts模型。(详全文)
Google 机器学习模型搜寻 Model Search
找模型好麻烦?Google开源模型自动搜寻工具帮你挑最好的
Google开源机器学习模型搜寻平台Model Search,要让研究社群更容易找出适合特定问题和资料集的ML模型、大幅减少程式开发时间与工作量。
Google表示,好用的类神经网络(NN)有赖于泛化任务的能力,但要做到这一点很有挑战性,因为社群理解有限。比如,适合解决特定问题的NN,会长怎样?要多深?隐藏层只用LSTM就够了,还是要结合Transformer?因此,这几年出现许多AutoML算法,比如NAS、演化算法、RL等,要将这段重手工的过程自动化,但这些算法需要大量算力,又是一大负荷。
为此,Google研发Model Search平台,由多个训练程式(Trainer)、搜寻算法、迁移学习算法和用来储存各种评估模型的数据库所组成,能以自适应的方式,执行各种机器学习模型的训练工作和评估实验。Model Search中实作的搜寻算法具适应性、贪婪和渐增特性,所以收敛的速度比RL要快,也能模仿RL,因此兼具深度与广度,能更快找到最佳结果。Google也将Model Search用来探索关键字标记与语言辨识模型,不到200次迭代,就能获得比专家设计更好的模型,少用了13万可训练参数。最后,Model Search以Tensorflow建成,可在单机或分散式装置中运作。(详全文)
苹果 联合学习 FE&T
苹果研发装置通用联合学习系统FE&T
苹果研发一套在装置上执行的通用联合学习系统FE&T,让资料在不离开装置的情况下,在个别装置上改善特定分能的准确率。FE&T包含了资料储存器、任务排程器、成果管理器,其中,资料储存器有一套资料保留策略,确保装置上留存的资料是有限的、最近的,而任务排程器则会定期下载一系列描述器,最后的成果管理器则会回传任务结果,并在装置上产生一个数据库,让终端使用者检视哪些资料是与中央服务器分享的。(详全文)
LinkedIn 会员大数据 销售分析
LinkedIn靠7亿会员大数据推出销售分析平台
LinkedIn正式发布分析平台Sales Insights,运用LinkedIn上7亿多笔会员资料,来提供销售团队即时分析数据。销售主管可透过Sales Insights掌握企业分布和即时人力资源,包括特定区域的企业、企业员工特性,来了解这些人所需的产品和服务。
Sales Insights运用LinkedIn Economic Graph资料集,来反映人、企业、技能、工作和学校等各种实体间的关系,而且,该平台透过分析账号、市场与关系强度等资料,让销售团队将资源集中在最有机会的客户上。其中,平台也运用多种AI和资料探勘技术,来清洗、整合资料,确保资料正确性,并透过AI自动配对公司属性,将干净的资料整合进企业CRM系统。(详全文)
未知的未知物 群众外包 影像辨识
Google要藉群众外包力量打造未知物资料集,改善AI辨识力
Google发起机器学习群众外包不良测试集CATS4ML挑战,要挑战者以创新方法,来改善ML模型辨识未知的未知物(Unknown Unknowns)能力。Google指出,影响ML模型表现的两大关键是算法和资料,而资料又可分为训练资料和评估资料,现有的评估资料却过于直白简单,往往忽略现实世界的模棱两可性,造成辨识弱点。
这弱点又可分两种,包括已知的未知和未知的未知,前者是指模型无法确定的分类,后者是指模型分类错误的例子。于是,Google发起CATS4ML挑战第一版,要收集未知的未知物资料集,用来评估ML模型辨识能力。目前第一版锁定电脑视觉,挑战者可透过资料集现有的标签,来找出未知的未知物,或以创新的方法来探索资料集。(详全文)
图片来源/云象、苹果、Google、LinkedIn
AI趋势近期新闻
1. Google云端整合资料科学平台Databricks
2. AWS加入开源框架PennyLane指导委员会,要融合机器学习和量子运算技术
3. Google开除另一位AI伦理研究员Margaret Mitchell
资料来源:iThome整理,2021年2月
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11
最新资讯
- YouTube更新违反规定政策,提升惩处透明度和一致性2023-12-31 14:00:52
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
- 吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市 预售价格22.99万元2023-12-28 19:30:28
- 日本丰田汽车厂11月全球产量创新高2023-12-28 19:26:02
手机
- 中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
- 荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
- 美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
- 苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
- 香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
- 华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
- 腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
- 三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
- 三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
- vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
- 中兴受美国制裁事件 被罚了20亿美元过程事件始末 中兴被制裁后公司现状2023-11-02 22:12:46
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09