APP下载

【从K匿名法、GAN和统计整合练兵,再攻联合学习】工研院揭3种去识别化方法

消息来源:baojiabao.com 作者: 发布时间:2024-05-13

报价宝综合消息【从K匿名法、GAN和统计整合练兵,再攻联合学习】工研院揭3种去识别化方法

除了K匿名法和GAN资料生成法,工研院巨资中心还有一套方法来进行多组织的资料去识别化任务,也就是先利用GAN在近端产生资料,再以统计横向整合来汇整资料,最后汇出。(资料来源:王邦杰)

在AI大浪的席卷下,如何兼顾大数据分析和资料隐私?工研院巨资中心专家分享3种作法,包括常见的K匿名法、GAN生成资料法,以及从GAN衍生出的多机构专用统计整合法。工研院巨资中心资料隐私与平台技术部经理王邦杰更强调,用GAN生成的无涉及个资假资料,与完全用原始资料的准确度相比,误差值仅在5%以内。这些也正是工研院用于财政资讯中心、健保署健保大数据的资料去识别化作法。

不只如此,工研院在金融、电商和医疗资料去识别化的经验,还延伸至联合学习(Federated Learning)应用,去年展开PoC验证,提出多种方法来解决联合学习资料品质参差不齐的问题。今年更联手台湾人工智能实验室(AI Labs),要把联合学习推广到各产业。

着重资料可分析性,资料去识别化应聚焦间接识别符

“许多资安厂商、资讯业者认为,资料去识别化只要将资料加密或Hash转换就好,”但工研院巨资中心资料隐私与平台技术部经理王邦杰指出,大数据时代着重的是“资料背后代表的意义,也就是资料的可分析性。”因此,资料去识别化不该只是加密资料,而是要在保护个资的条件下,也保有资料可分析性。

但是,这种资料去识别化该怎么做呢?

这得先了解个人资料的组成。根据个资法定义,个人资料可分为直接识别符和间接识别符,直接识别符就是姓名、身份证字号等资料,而年龄、种族和邮递区号等就是间接识别符。

“间接识别符无法判断特定个体,但攻击者可从间接识别符的组合,来推导出特定个体,”因此,去识别化就是针对可识别资料、间接识别符下手,让资料中足够多的个体,对应到同一组间接识别符,将个体特征“模糊化,”隐身于群体中。

在这些条件下,他表示,有3种常见的去识别化核心技术,包括传统统计揭露控制(Statistical Disclousure Control,简称SDC)、K匿名系列算法,以及差分隐私算法(Differential Privacy)。

王邦杰解释,SDC是个传统老方法,已存在20多年,K匿名算法则相对年轻,问世约10年,“不过,现在会需要更强健的K匿名算法。”至于差分隐私,则是近几年兴起的热门资料去识别化方法,目的是在资料集中加入噪声,来混淆视听。

工研院也有几套资料去识别化作法,在保有资料可分析性的情况下,也兼顾资料隐私。他们的方法除了上述的K匿名算法外,还自行发展出2套去识别化方法,一个是GAN资料生成法,另一个是GAN生成法衍生的多机构去识别化资料融合分析法。

工研院推荐这3种资料去识别化方法

1. K匿名法:传统常见作法,利用资料藏匿和资料泛化,将确切值隐藏在一个区间达到匿名效果。直觉、容易使用的作法,但工研院建议K值大于20,较不易遭攻破。卫福部和财政资料中心曾用此法来开放-资料。

2. 完全用GAN生成假资料:业界资料保护主流作法,用GAN生成器模型产生接近真实资料的合成假资料,来达到匿名效果但又有分析力。工研院经验,GAN生成资料的分析准确度,与原始资料间相比,两者的误差值可在5%以内。

3. 用GAN去识别化再融合分析:工研院整合GAN和传统统计作法,可用于多机构间的资料去识别化和资料整合分析。先在各机构端以GAN生成资料,再靠统计匹配作法,横向整合资料后得到,可分析的整体性资料。工研院建议,2家机构整合的效果最佳。

资料来源:工研院,iThome整理,2021年5月

工研院资料去识别化第1招:K匿名法

K匿名算法是工研院常用资料去识别化法之一,“它虽然不是最强的保护方法,但却是最直觉、最容易操作的去识别化方法。”王邦杰点出这个方法的优点。这个作法的核心在于资料藏匿(Supression)和资料泛化(Generalization),也就是将资料进行更广义、更抽象的描述。

但只是将部分资料遮掩,比如电信账单中遮掩几码的电话号码,或是遮掩姓名中间字的作法,“就不是可分析的资料了。”他认为, 用K匿名法将资料去识别化时,得将年龄、地址等确切资料隐藏在一个区间,比如将33岁改为31至35岁、将确切门牌号码改为住在忠孝东路,或是将身高隐藏在181至185公分的区间。如此一来,“在资料颗粒度变粗的情况下,会有更多人符合这些条件组合, 要从中去找出特定人, 也就更难。”这就达到了隐匿效果。

所以,K匿名法中的K就是指,用不同间接识别符的组合来搜寻时,至少有K个个体符合,比如搜寻上述“31至35岁、住在忠孝东路、身高181至185公分”条件的人,至少有5个,那K就是5,也就是最小能保护的基准值。

同时,王邦杰也建议, K 值要大于20才不容易被攻破。几年前,工研院也用这个方法,来辅导卫福部和财政资讯中心的资料去识别化专案,协助-开放资料。

工研院资料去识别化第2招:完全用GAN生成的合成资料

工研院资料去识别化的第2招,是利用对抗生成网络(GAN)来产生合成资料,并用这些生成资料完全取代真实资料,来避免个资泄漏的问题。

这个做法的原理是,将原始资料输入GAN生成器(Generator),来产生具有原始资料特性的合成资料,接着用GAN鉴别器(Discriminator)来评断这些合成资料的拟真度,借此提高合成资料的真实性。这个过程会反复进行,直到生成器产生的资料成功骗过鉴别器为止。

王邦杰指出,GAN生成法是时下业界资料保护的主流作法,一些专家甚至会加入差分隐私,来提高去识别化强度。工研院也自2017年开始,用GAN生成器模型来产生接近真实资料的合成资料,进行资料去识别化。不过他也提醒,采用该方法“要考量的是,如何让GAN生成的资料,够接近原始真实资料。”

除了不会泄漏个资的好处,这个方法也能弥补传统方法的缺点,王邦杰解释,传统在真实资料中加入噪声(假资料)来混淆视听,会造成运算成本增加,也会降低日后资料分析的准确度。“完全采用合成资料,就不会有这些问题。”

就资料可分析性来说,工研院采用GAN生成资料的准确度,与完全用原始资料的准确度相比,误差值在5%。甚至,“状况好时可达1%、2%。”王邦杰强调。

工研院资料去识别化第3招:用GAN去识别化再融合分析

在GAN的基础上,工研院还延伸出另一套方法,可以作为多机构的资料去识别化和分析需求之用。这个方法整合GAN和传统统计整合作法,可分为3个步骤,包括在机构端以GAN生成资料,再以统计学横向整合(Join)这些资料,最后,汇出这些资料就可以得到具有分析力的去识别化资料集。

举例来说,假设银行A、电商B分别拥有资料集X、Y和X、Z,其中X是两家企业的共通资料,也就是共通客群,而Y和Z是与X相关的资料。为了在兼顾个资隐私的条件下整合两家资料,双方得先将手上的资料集X、Y和X、Z去识别化,也就是以GAN生成近似原始资料的合成资料。

接着,工研院透过横向整合(Database join)、资料配对(Record linkage)、统计匹配等方法,来整合这些生成资料(也就是随机配对),完成后再汇出整合的资料集X、Y、Z,来进行分析。

王邦杰解释:“这种随机分配并不会影响整体资料可分析性,因为在统计学上,资料走向是一样的。”工研院也用这个方法进行不少模拟, 不过, 他认为,这个方法最适合用于两家机构的资料整合, 若机构数量更多, 就会影响资料的可分析性,也就是后续运用于AI的准确度。

摄影/王若朴

工研院巨资中心资料隐私与平台技术部经理王邦杰指出,在大数据时代下,企业的资料去识别化应保有资料可分析性,而非只进行资料加密或Hash转换就好。

去识别化后的资料分析准确度多高?工研院用5种ML模型来评估

资料去识别化的目的在于分析,但去识别化程度会影响分析准确度。为衡量这些做法的资料可分析性高低,工研院也自建一套评估工具,会使用5种ML算法,包括XGBoost、SVM、随机森林、Linear SVC和Logistic regression,来测试资料去识别化后的AI分析准确度。为了评估,同一批分析资料,还会训练出三种AI模型来比较。

测试前,得先确认生成资料字段属性,比如是类别型或数值型,才开始使用ML算法,针对想要分析的资料字段,利用原始资料和合成资料来训练模型,交叉比对准确度。

例如,可将训练资料和测试资料按比例分为80%和20%, 首先完全使用原始资料来训练、测试模型, 这就是模型一。模型二是用80%合成资料训练模型,再以20%原始资料来测试模型。假设模型一的准确度与模型二相近,就表示“生成资料能以假乱真,”王邦杰说。

接下来,还可以完全使用合成资料来训练、测试建立第三种模型(模型三),它的目的是检验是否有过度拟合(Overfitting)问题。这个检验标准,是与模型一相比,要是模型三准确度高于模型一,就代表过度拟合。

有了模型一、二、三和各5种ML算法的训练与测试分数后,工研院自建的评估系统也会依类别列出5种算法,各自在这三种模型中的表现,让使用者从中判断去识别化的资料可分析性。

工研院已经将资料去识别化做法和评估工具,开发成一套解决方案,内有多种去识别化核心算法、风险和资料可用性评估模组,以及资料处理模组等,这套解决方案可平行化部署在大数据框架Hardoop、Spark上,也能单机部署在个人电脑上。王邦杰指出,不少-、金融甚至是智慧制造业者,也用这套方法来处理资料去识别化。

投入隐私资料保护的新作法联合学习

工研院巨资中心自2019年下半年也投入的联合学习技术的研究,这是另一个不需揭露隐私个资又能提供资料分析性的新作法,更在2020年展开医疗联合学习PoC,包括与工研院生医所进行的痰音疾病预测。

联合学习常见的模式之一是Server与Client模式,也就是透过发起人设置一套初始模型,让各个Local端(即Client端)下载,用自家的资料来训练,再将参数上传到中央服务器的母模型(即Server端的Global模型)来优化,如此反复直到模型收敛。

不过,王邦杰发现,联合学习本是要解决安全问题,“现在也衍生一些安全问题。”比如,医院担心Local端的训练模型会偷走资料,或是Local端的模型遭破解而泄露资料、汇入错误资料,又或是Global模型会遭破解等等。

联合学习还有资料中毒和Non-IID两大挑战

这就演变成联合学习的两大挑战。首先是资料中毒(Data poison)问题,也就是Local端用错误资料来训练模型,会破坏了整体联合学习的Global模型表现。王邦杰坦言,这是个无法完全解决的问题,“但有技巧可以避免。”比如降低特定Local端模型在Global模型的权重,就比较不会造成资料中毒问题。

再来,因为联合学习旨在保护资料隐私,Server端无法仔细检视每个Local端用来训练模型的资料, 因此当少数Local端模型表现异常时,Server端无法确定是不是资料中毒问题。这时,Server端就要考虑“Non-IID(Non-Identical Independent Data)问题,也就是该Local端的资料本来就异于常人。”这个现象,也是联合学习常见的挑战之一。

“Non-IID是指非完美分布的资料, ”王邦杰解释, 在联合学习中,若Client端的资料分布(Distribution)差距非常大, 也就是每个Local端模型表现差异极大时,会导致Global模型表现不佳,或是难以收敛。

面对这个问题,学术上也有几种方法来应对,比如从各Client端挑选有共识的资料( 像是属性类似的子资料集),先来训练Global模型、缩小差距,待模型表现稳定后,再加入属性差异较大的资料。

这种优先挑选属性类似资料的作法,可透过资料增强(Data augumentation)来实现。资料增强是一种增加资料量的方法,将现有资料复制、稍加调整(如翻转、剪裁、颜色修正等方法),来产生更多资料、扩充训练资料集。

借由这个方法,Local端可多产生一些性质类似的训练资料,来强化该资料的占比,进而训练出差距较小的模型。

有了这些技术经验,工研院今年进一步联手台湾人工智能实验室(Taiwan AI Labs),投入跨-部会成立的台湾联合学习产业大联盟,担任核心成员。

王邦杰透露,工研院将在联盟中,协助制定特定产业的联合学习标准(比如标注规则),并建立联合学习生态系;同时,他们也会继续探讨联合学习的技术问题,比如Non-IID,并寻找更好的解法。他们希望将在联合学习在医界的成功经验,推广到其他产业。

资料来源:王邦杰

工研院巨资中心过去一年执行不少医疗联合学习POC,发现联合学习仍有些安全议题,比如Local端模型遭破解、资料外泄等。工研院也依此在不同阶段设计防护机制,像是医院与Local端模型间。

国际资料治理组织近2年格外重视资料隐私

在国际电信联盟电信标准化部门ITU-T旗下,有个为期两年(2017年至2019)的资料治理专案组织FG-DPM,专门制定IoT和智慧城市相关的资料治理与AI框架,“是国际上脚步最快的资料治理组织,”亲身参与该组织的工研院巨资中心资料隐私与平台技术部经理王邦杰说。

 FG-DPM 制定的架构涵盖5 大层面,其中之一就是资料处理和管理面的隐私技术,以及对应的法规问题,凸显了组织对资料隐私的重视。就其他4个层面来说,还包括资料的使用情境、需求和应用服务,以及资料处理管理(DPM) 框架、架构和核心元件,再来是资料共享、互通性和区块链管理等,最后则是资料经济化和货币化。原本迪拜万国博览会是第一个要实验资料货币化的场域,但因为去年疫情严峻、参访人数受限制,导致成效不理想。

“FG-DPM领先其他国际组织,快速定义出完整的资料治理建议和应用框架,”王邦杰指出,该组织产生的15份报告,也交由ITU标准组织旗下的小组参考,包括医疗AI(FG-AI4H)、IoT智慧城市(SG20)、多媒体(SG16),以及机器学习于5G未来网络(FG-ML5G)等。他直言,FG-DPM制定资料隐私和AI框架的举动,势必带动其他国际组织跟进,在资料治理上更有着墨。

2021-05-21 14:55:00

相关文章