APP下载

使用者的敏感资料可以轻松被恢复 怎么破?

消息来源:baojiabao.com 作者: 发布时间:2024-05-20

报价宝综合消息使用者的敏感资料可以轻松被恢复 怎么破?

点选上方关注,All in AI中国

最近,在使用者敏感资料上使用人工智能引发了许多担忧。差分隐私和联邦学习是Google和苹果等公司目前针对这一问题提出的解决方案。

https://ai.googleblog.com/2017/04/federated-learn

介绍

敏感的资料和资料每天会以不同形式收集(例如:医院病历、手机活动记录等)。一旦资料被收集,然后经过预处理成为完全匿名的,并最终提供给公司和研究社群进行分析。

使资料集匿名可以防止任何人仅使用资料集就完全能够将资料反向工程到其原始形式。

虽然,资料集中包含的资料也可以在web上以任何其他形式提供。然后,通过使用数理统计方法比较相同资料的不同来源,可以更容易地对原始资料进行逆向工程。这样,提供资料的人的隐私就会受到损害。

举个例子,Netflix在2007年释出了一个数据集,其中包含了他们在公开竞争中的使用者评分。比赛前,资料集已完全匿名,因此不包括任何私人资讯。然而,研究人员先后对该资料集的隐私安全性进行了测试,成功地恢复了高达99%的已删除的个人资讯。通过将Netflix提供的资料与IMDB上公开的其他资讯进行比较,可以实现这一结果。

利用差分隐私和联邦学习等技术可以大大降低这种风险。

差分隐私

差分隐私使我们能够量化数据库的隐私级别。这可以帮助我们尝试不同的方法,以确定哪种方法可以更好的保护使用者的隐私。通过了解我们的资料隐私级别,我们可以量化某人可能从资料集中泄露敏感资讯的可能性,以及最多可以泄露多少资讯。

Cynthia Dwork对差分隐私的定义是:

差分隐私是指资料持有人或馆长向资料当事人作出的承诺,承诺内容如下:

"你不会因允许你的资料用于任何研究或分析而受到不利的,或者说是其他方面的影响,无论是否有其他研究、资料集或资讯源可用"。

差分隐私用于保护个人隐私的一种技术是在资料中新增噪声。两种主要的差分隐私方法是区域性差分隐私和全域性差分隐私。

区域性差分隐私=噪声被新增到资料集中的每个单独的资料点(资料集管理员一旦形成资料集,或者在将资料提供给管理员之前,由资料集管理员自己新增)。全域性差分隐私=在资料集查询的输出中添加了保护个人隐私所需的噪声。一般来说,与区域性差分隐私相比,全域性差分隐私在保持相同隐私水平的情况下,可以得到更准确的结果。另一方面,当使用全域性差分隐私时,提供资料的人需要信任资料集管理员新增必要的噪声来保护他们的隐私。

在实现差分隐私时,通常可以使用两种型别的噪声:高斯噪声和拉普拉斯噪声(图1)。

图1:高斯分布和拉普拉斯分布。

为了确定需要向资料集新增的噪声量,以确保资料集的隐私安全,使用了差分隐私的正式定义(图2)。

图2:差分隐私定义

在图2中,一个代表一个随机算法,将资料集作为输入,资料集D1和D2相差只有一个元素和ε(ɛ)是一个正实数。 Epsilon作为一个引数来确定所需的噪声量。

联邦学习

利用大量资料的机器学习模型传统上是使用线上服务器进行训练的。Google和苹果等公司过去常常将移动装置使用者的资料记录活动,储存在云服务中,从而建立一个集中式的机器学习模型,提高移动服务的效能。

如今,这些大公司正在转向使用一种被称为联合学习的分散模型方法。使用联邦学习,机器学习模型在资料来源上进行训练,然后将其输出移动到云上进行进一步分析。这意味着像Google和苹果这样的公司不再需要访问他们使用者的资料来改善他们的服务,而是可以使用本地训练的机器学习模型的输出(而不会破坏使用者的隐私)。

此外,由于这些模型是在本地训练的,因此可以为终端使用者提供更加个性化的体验(图3)。

联邦学习的定义是:

联邦学习=在我们无法访问的资料上训练机器学习模型的技术。我们用来训练模型的资料集分布在大量的资源中。

图3:活动中的联邦学习

像Google这样的公司规定,这些型别的本地机器学习训练只在终端装置不被使用者使用、正在充电并有wifi连线的情况下进行。这样,装置的整体效能就不会受到影响。

在智能手机装置上使用联邦学习的一些例子可以是:使用Android上的Gboard、Gmail和Google搜索引擎提供个性化的单词建议。

GoogleAI提供了几个例子,说明了Google如何利用联邦学习以及它是如何工作的,这些可以在“连结”和“连结”找到。

2019-08-05 16:56:00

相关文章