三年前,Google一篇联合学习(Federated Learning,又称联邦学习)部落格文章,解释了如何以分散式训练方法,把资料留在本地端,打造出可部署至上百万支手机的输入字推荐模型。这个作法,不再需要收集大量个人资料至资料中心,不仅取代传统集中式机器学习,更一举成为现在AI大数据与个资隐私瓶颈的解套方法。
2017年,Google为改善自家Android虚拟键盘Gboard的输入功能,设计出一套加密分散式机器学习方法。首先,个别用户的手机会从中央主机下载一套模型,接着在数以万计的用户端,根据用户端的使用行为,来训练Local端模型。
训练好后,用户手机会上传模型权重(亦称参数)至中央主机,中央主机收集一定数量的权重后,就会聚合(Aggregation),计算出一个优化过的权重,再回放到用户端手机,进行下一轮训练。
这个过程会不断重复,直到模型达到理想的表现。在这过程中,只会上传模型参数,完全不会上传使用者资料。Google指出,这个方法训练出来的模型,不只让搜寻功能变得更好,还能部署到“数百万支Android手机上。”
AI浪潮兴起以来,为打造高准确度、高适应性的模型,就必须使用量大且多样的训练资料。但在2018年,欧盟祭出史上最严格的个资保护规范GDPR,限制了企业搜集、使用个人资料的行为,这与AI热浪的大数据需求,发生冲突。
而联合学习藉分散式训练,以共享模型取代共享资料,能藉众人之力,打造效能不输集中式训练的模型。这个方法,近年来在着重隐私的金融、医疗领域发酵,比如中国纯网银微众银行发起联合学习框架,邀集全球金融业者,来打造信用卡防诈欺模型,或是在医疗界,Nvidia联手伦敦国王学院,共同打造一款医疗联合学习平台。
今年,台北荣总率先发表了台湾第一个联合学习试验的成果,以国产AI超级电脑来试验联合学习可行性,随后,三总也在6月时宣布,加入全球20多家医院联手的联合学习研究计划,要来打造一个COVID-19病情预测模型。台湾也开始跟上了新一波联合学习全球浪潮。
Q:什么是联合学习?
A 联合学习(Federated Learning)是一种分散式机器学习训练方法,最常见的形式为Server-Client形式,由一个中央服务器,搭配分散各地来参与训练的多个节点(也就是Client)。各节点主机先从中央服务器下载模型,在本地端以自己的资料来进行训练,完成训练后,再将各自模型的权重上传至中央服务器,由中央服务器来聚合(Aggregate)这些权重。这种分散式训练方法,可套用在不同机器学习模型的训练过程。
接着,中央服务器会将优化过的权重,回传给各节点,各节点再利用新的权重,进行下一轮训练。这个过程会不断重复,直到模型收敛至理想状态。
Q:联合学习最大好处是?
A 联合学习靠各节点贡献自己的模型参数,来同步优化所有模型,而不需要像传统集中式的训练方式,需将所有资料集中来训练。因此,就算资料因故无法共享,也可以进行联合学习。只要加入训练的节点够多、资料多样性够高,联合学习也能解决资料不足和模型偏见问题,训练出最具代表性的模型。
Q:什么是权重?所有节点都回传权重后,才能聚合吗?
A 类神经网络模型由两部分组成,一是架构,另一是权重(Weight),也就是参数。联合学习的每一轮训练中,不一定要取得所有节点的权重,也可以在过半数节点回传后就进行聚合。至于这一轮未上传权重的节点,自己训练完模型、上传权重后,就会得到第一轮聚合过的权重,再以新权重继续训练模型。
Q:采用联合学习,得有哪些事前准备?
A 参与模型训练的节点,得采用相同的训练程式和软件平台,在资料方面,也得先定义出要使用的训练资料类型和规格。甚至执行联合学习时,各方需采用同规格模型,像是类神经网络的层数。
Q:联合学习有哪些种类?适合哪些产业?
A 联合学习可分为两种,首先是跨装置(Cross-device),比如Google利用联合学习来训练数万支Android手机的Gboard模型,最后再部署到上百万支手机。另一个是跨组织(Cross-silo),比如英特尔联手宾州大学医学院,与29家跨国医疗机构利用联合学习,来开发脑瘤侦测AI算法。联合学习适合重个资隐私的领域,比如医疗、金融业。
Q:联合学习与集中式训练的模型,准确度有差别吗?
A 根据台湾人工智能实验室创办人杜奕瑾的经验,他们多次用联合学习来训练医疗AI模型时,比较过两种训练方法的效果,只要各节点的资料分散程度越多元,训练迭代次数越多,联合学习的AI模型准确度可以媲美集中式训练,甚至可以比集中式训练更高。
Q:联合学习有哪些框架?
A 常见的包括Google的Tensorflow Federated、脸书的PySyft,不过两者只限于模拟,无法用来部署。其他框架还有Nvidia的Clara、百度的Paddle Federated Learning(PFL),以及中国纯网银微众银行的FATE。
台湾人工智能实验室也在今年六月,开源自家联合学习框架Harmonia,已开放Harmonia-operator SDK和差分隐私(Differential privacy)函式库下载。
Q:国际上,联合学习有哪些应用案例?
A 在金融方面,中国纯网银微众银行发起开源联合学习专案,要集结全球金融业者,来打造信用卡防诈欺侦测模型。在医疗方面,则有Nvidia与英国伦敦国王学院,以联合学习打造脑瘤影像分割模型;此外,还有波士顿大学与麻州总医院MGH联手,以电子健康纪录(EHR)和联合学习方法,来训练一套预测心脏病患者住院率的模型。
Q:台湾也有联合学习实例?
A 台北荣总今年利用国产AI超级电脑台湾杉二号的云端环境,设置了5个节点,来代表不同的虚拟医院,并利用自家和开源的脑瘤MR影像,以联合学习方式来训练模型。
台湾人工智能实验室也利用联合学习,开发不少医疗AI模型,比如武汉肺炎胸腔X光片侦测模型。三总也在六月,加入Nvidia与麻州总医院体系医院MGB发起的COVID-19联合学习计划。
Q:台湾已有健保大数据计划可供学术分享,为何还需要联合学习?
A 三总AIoT中心首席执行官暨医务企画管理室副主任李家政指出,健保大数据并未提供AI模型训练所需的数值,比如只显示患者在特定时间至某家医院,进行血钾浓度检查,不会显示血钾浓度的数值。
另一方面,台湾人工智能实验室创办人杜奕瑾指出,这些开放研究使用的资料,未必是最多样的,而且会有选择性偏见的问题。比如,为了确保无个资隐忧,可能选择开放好几年前的旧资料。透过联合学习,可突破上述瓶颈。
Q:联合学习有哪些挑战?
A 虽然联合学习不必将原始资料上传,但在传递权重的过程中,仍可能受到模型逆推攻击(Model Inversion Attack),透过权重来回推特定的使用者资料。常见的解法包括同态加密、差分隐私(Differential Privacy),在传送的权重中添加噪声(Noise)。
相关报导 AI隐私难题新解方:联合学习
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11
最新资讯
- YouTube更新违反规定政策,提升惩处透明度和一致性2023-12-31 14:00:52
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
- 吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市 预售价格22.99万元2023-12-28 19:30:28
- 日本丰田汽车厂11月全球产量创新高2023-12-28 19:26:02
手机
- 中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
- 荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
- 美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
- 苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
- 香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
- 华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
- 腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
- 三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
- 三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
- vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
- 中兴受美国制裁事件 被罚了20亿美元过程事件始末 中兴被制裁后公司现状2023-11-02 22:12:46
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09