大数据时代下,“匿名化”真的能保护我们的隐私安全吗?

2019-07-18 18:36:54

大数据时代下,数据的收集与应用在带来巨大社会价值的同时,也带来了个人隐私保护方面的难题。如何在对数据进行挖掘应用的过程中保护个人隐私,防止敏感信息的泄露成为新的挑战

隐私保护  

来源: https://news.sina.com.cn/c/2019-06-26/doc-ihytcerk9424415.shtml

  译者| 宽带资本投资经理 张曦

  作者| Tyler Elliot Bettilyon

  原标题| Why ‘Anonymized Data’ Isn’t So Anonymous, Medium

  大数据时代下,数据的收集与应用在带来巨大社会价值的同时,也带来了个人隐私保护方面的难题。如何在对数据进行挖掘应用的过程中保护个人隐私,防止敏感信息的泄露成为新的挑战。

  在此前备受关注的“剑桥分析公司数据泄露”事件中,Facebook上超过5000万用户的信息被一家名为“Cambridge Analytica”的公司不当获取并用于未经授权的目的。然而,根据Facebook的解释,这些个人信息,例如用户填写的心理测试结果,全部是在经过“匿名化”处理后才被用于对外分享的。公司表示,在获取用户的授权后,这些数据会“通过匿名的方式被使用和分发,并且保证即使利用这些信息也不能追溯到个人用户”。

  然而“匿名化”真的可以在大数据时代保护我们的个人隐私吗?

  以下是计算机科学家Tyler Elliot Bettilyon撰写的一篇关于数据匿名化的文章,也许能够帮我们从中找到问题的答案。

  2015年,数据匿名化和隐私领域的研究员Latanya Sweeney针对华盛顿HIPAA(Health Insurance Portability and Accountability)法案保护下的医疗记录数据进行了一项“去匿名化”研究。在该州( 以及许多其他国家),公司和个人可以购买匿名的医疗记录数据。Sweeney通过合法渠道购买相关数据,其中包括“几乎所有一年内在该州发生的住院治疗记录”以及关于那些就诊记录的大量细节,包括患者接受的诊断、手术,主治医生信息、收费摘要等等。这些记录都是匿名的,因为它们不包含患者的姓名或地址,但包括患者所在地址的邮政编码。

  之后,Sweeney查阅了华盛顿州自2011年以来刊发的所有包含“住院治疗”一词的新闻报道,总共找到了81篇文章。通过对文章内容和匿名数据库进行比对分析,Sweeny发现其中35篇报道能够在数据库中找到与之精准对应的唯一医疗记录。而这些新闻报道中明确包含了患者的姓名,“成功”实现了对这35名患者的“去匿名化”。

  众所周知,数据已成为现代社会发展的重要推动力。研究人员会收集大量的数据,并基于数据开展研究工作。Google的数据库可以包含你的完整搜索历史记录;Facebook存储着大量用户的行为、评论和照片信息。这些数据决定着我们会看到哪些新闻、电影和广告,哪些朋友的帖子会出现在我们社交媒体的feed流中,以及哪些潜在的伴侣会出现在我们的交友app中。然而,这里涉及的大部分数据都与我们的个人隐私息息相关。


持续收集着大量的数据

  通常情况下,我们不会向陌生人透露我们的信用卡记录或医疗记录,因为我们对这些数据的敏感性有着清晰的认识。那么,为什么我们会泄露这些最私密的个人信息呢?原因是大多数人首先是数据“泄露”的受益者。Google通过收集数据优化搜索体验,并帮助Gmail过滤垃圾邮件;用户信用卡记录可以帮助银行监测信用卡盗刷行为;医疗记录可以帮助研究人员进行新药研发,或者帮助医生制定更好的治疗计划。

  但人们享受这些益处并非没有代价。企业和研究机构持续进行着大量的数据收集,而这仅仅是这一系列数据旅程的开始。它们将被重新打包,与来自其他来源的数据相结合,并通过合法或非法的方式被转售给“需要的人”。典型的数据包括:

  ❶ 你的位置(包括实时的与历史上的)

  ❷ 你的信用卡交易记录

  ❸ 你的网站浏览历史记录

  ❹ 你在网站的登录凭据

  ❺ 你的社会安全号码

  ❻ 你的医疗记录

  即使你认为自己并没有什么需要隐藏的“秘密”,对个人数据的滥用仍可能对你造成不利影响。因此,大部分相关方在存储或转售个人信息时,一直在努力实现个人数据的“匿名化”。某些情况下,数据匿名化存在法律要求,例如HIPAA对个人医疗数据的要求,尽管HIPAA提供的保护并不像大多数人想象的那么强。类似的,欧盟最新的通用数据保护条例(GDPR)对能够识别个人身份信息的数据提出了严格的使用限制,相比之下,GDPR对匿名数据的使用限制则较少。

  除此之外,有些公司已经将“数据匿名化”作为其战略的一部分。例如,与Google和Facebook不同,Apple刻意减少对数据的收集,因为拥有大量数据可能会使公司更容易成为黑客的目标。同时,Apple努力对收集的数据进行匿名化处理,并且不会对外转售用户数据。

  这些举措很有勇气,值得鼓励。遗憾的是,研究表明,许多匿名化数据都很容易被“去匿名化”,尤其是当多个数据来源有一定程度的重叠的时候,区别一个数据来源和另一个数据来源的任一信息都能被用于去匿名化。

  这里有一个关于“去匿名化”的知名案例。2006年,Netflix为改善其电影推荐服务,公布了包含部分用户评分的数据库,其中包括用户对电影的评分和评分日期。该数据库是匿名的,采用随机更改数据库中包含的大约480,000个用户的部分评级和评级日期等方法对数据库进行匿名化处理。

  尽管存在这些干扰,但研究人员的实验结果表明:只需非常少的辅助信息,就可以对Netflix数据库中的大部分的用户记录进行去匿名化。通过8部电影的评分,和允许误差14天的评分日期,就可以唯一标识数据库中99%的用户;而仅通过2部电影,就可以标识68%的用户。而一个人观看8部电影的记录很容易获得,通过与其聊天或者查看他的博客就有可能得到。

  电影评级可能看似无害,它们显然不如医疗记录敏感,但仍然可以揭示一个人的政治观点、宗教信仰和性取向等,从而严重侵犯一个人的隐私并使其处于危险之中。这对于当前的数据驱动型社会来说是一个严峻的挑战。 

随着更多数据的公开或泄露,去匿名化将变得更加容易

  现实是,我们的数据正在被越来越多地被泄露和盗取。美国联邦紧急事务管理局(FEMA)今年早些时候泄露了230万灾民的家庭地址和银行账户信息;美国三大个人信用评估机构之一的Equifax在2017年遭遇黑客攻击,超过1.45亿人的信息被盗;非营利组织Privacy Rights Clearinghouse的研究显示,自2005年开始,14年中共发生了8,804次数据泄露,超过115亿条记录被泄露。这意味着自2005年以来,平均每天发生1.7次数据泄露,220万条记录被泄露。当别有用心的人将所有这些数据拼凑在一起时,数据的去匿名化将变的更加容易。

  对于相关领域的学者来说,这些担忧并不是什么新闻。2010年,个人隐私律师Paul Ohm就曾在UCLA法律评论中刊文指出,虽然恶意攻击者可以使用个人身份信息(如姓名或社会安全号码)将数据与个人身份进行关联,但事实证明,即便只拥有那些不会被归类为“个人身份信息”的信息,他们也可以达到同样的目的。

  Ohm参考了Sweeney早期的一些研究,她发现1990年美国人口普查中有87%的人可以通过两条信息进行唯一识别:他们的出生日期和他们住址的邮政编码。Ohm还引用了Netflix以及其他有关数据泄露的案例,并得出结论:在传统的以个人身份信息为保护重点的匿名化技术下,几乎任何数据都无法实现永久的完全匿名。

  2013年,研究人员发现位置数据具有高度的独特性,因此更加难以匿名化。许多匿名数据库都可能间接泄露你的位置,例如刷卡消费或前往医院就诊。研究人员发现,通过每小时记录4次手机连接到的信号发射塔,就可以对95%的设备进行唯一识别。如果数据更精细(GPS跟踪而不是信号发射塔,或者实时采集而不是每小时采集),匹配则会变得更加容易。

数据的合理利用,具有很多积极的社会价值

  然而不可否认的是,尽管面临被滥用的风险,但数据的合理利用同时又具有很多积极的社会价值。我们希望医学研究人员创造新的药物和治疗方法、希望我们的房屋能够自动调节到舒适的温度、希望Google地图提示我们前方道路拥堵。我们渴望大数据带来的益处,却又不想面临去匿名化的风险。

  然而事实是,我们必须做出权衡。我们已经被迫放弃了一些隐私,未来可能还需要放弃更多,但真正关键的是如何降低我们的隐私被滥用的可能性。

  保护敏感数据和防止未经授权的访问必须成为每一个数据收集者的第一要务。同时,监管机构也应持续加强对个人数据隐私的保护力度。例如,GDPR鼓励公司存储更少的数据并尽最大努力对存储的数据进行匿名化处理,即使这并非100%有效。

  同样,参与数据收集和存储的每一方都应该及时了解最新的隐私保护技术。例如差分隐私(Differential Privacy,一种基于密码学的隐私保护技术)这样的策略,即在数据库发布之前将一些随机噪声添加到数据库中,这有助于减少基于数据关联性的攻击。Apple和Google都在研究差分隐私策略方面付出了很多努力,这些举措值得借鉴。

  总而言之,我们需要坦诚面对数据带来的价值和风险,并谨慎权衡。一方面,我们希望释放大数据的力量,为我们的生活带来积极的改善。而另一方面,大量数据存在的本身就是一种隐私风险。如果我们放弃过多的隐私,大数据则可能进一步剥夺我们的自由。

二号老头 - 2019-07-18 18:39:17

隐私保护  

172019-07
人民日报势所必然:兼顾人工智能应用和隐私保护am

如何在人工智能应用中兼顾隐私保护,确保安全、可靠、可控,是一项亟须关注的伦理课题...

172019-07
中青报:隐私保护的“中国方案”该如何完善am

互联网企业广泛收集用户各类信息加以整理分析利用,从中攫取到巨大的经济效益。在这过程中,暴露出的个人数据安全、隐私保护等问题却被忽视...

152019-07
点开网页瞬间被窃取隐私 访客手机号码被卖1元1条am

记者亲测了网络售卖的“最新抓取技术”,用4台不同号码的智能手机浏览“做了手脚”的网站,其中2台手机的号码被成功抓取...

152019-07
Chrome隐身模式可能没有你想得那么能保护个人隐私am

使用隐身模式后,您的雇主、您的互联网服务提供商或者您访问的网站本身,还是可以查看您的网站访问活动记录。...

142019-07
Cookie 浏览器隐私保护am

Cookie可以帮助你一键查看和清除所有安装的浏览器内的Cookie、历史记录、缓存,并且可以防止网站Cookie的追踪,提高对个人数据隐私的保护...

142019-07
Hider 隐私保护工具am

Hider是mac平台上最实用的隐私保护工具。对比Hider一代软件,Hider 2 for Mac版无论是功能还是风格上软件都做了较大的改进,还新增了类似1Passwo...

132019-07
中国网民个人隐私状况调查:我们在意隐私吗?am

报告显示,经常担心自己信息在网上泄露的网民比例占将近四成,完全不担心的网民比例不到10%...

132019-07
大数据时代,无处安放的个人隐私am

大数据时代,互联网企业平台收集用户信息该如何衡量?数据的使用边界到底在哪里?谁来为消费者的隐私安全护航?...

132019-07
因数据泄露,脸书或被重罚50亿美元!am

美国联邦贸易委员会当天批准与脸书公司达成一项约50亿美元的和解协议。如果协议最终通过,将成为美国政府对科技公司开出的最大罚单...

132019-07
大数据时代的隐私还能保护吗?am

全球的个人隐私相关法律却在大数据和算法的时代却是蹒跚前行。...

122019-07
德勤:2017亚太区隐私与个人信息保护白皮书am

亚太经合组织《隐私保护框架》提出了共同原则,有助于实现亚太各国家/地区隐私与个人信息保护法规要求的协调一致。虽然该框架目前已包括跨境传输相关原则,但不具有约束力,但该框架...

122019-07
国务院政策例行吹风会:将从多方面对个人隐私进行保护am

健康医疗信息的泄露,不但给个人造成很大的困扰,同时也会造成经济损失,如果像基因这样特别的数据流失的话,可能对我们国家安全造成威胁...

122019-07
欧盟个人信息保护法律实践-个人数据保护指令am

在欧盟,典型的个人信息保护法律是1995年的《个人数据保护指令》(Data Protection Directive)。该指令源于美国早期的FIPs原则,从法系上讲受德国...

122019-07
个人信息与隐私的关系am

所谓隐私权,通常是指“私生活不受干涉的权利”,“或个人私事未经允许不得公开的权利”。也就是说,每一个人均有“不受旁人干涉搅扰的权利”。隐私权的实质在于,个人自由决定何时、...

122019-07
122019-07
陆峰:大数据时代个人隐私保护如何突破困境am

作为数字经济时代个人最为宝贵数字资产,加强个人信息保护,不仅事关个人权益的维护,更是关系到网络社会时代个人的幸福感和获得感...

122019-07
如何看待大数据、网络化时代的个人隐私保护问题am

目前对个人隐私保护的认识出现两方面大的偏差:一种是过度强调隐私保护,为保护个人隐私而保护隐私...

122019-07
个人隐私保护需重视am

保护个人隐私,亟待从法律法规上立法,只有这样,才能提高违法成本,并敦促酒店、景区等本身多投入相关成本,全力保障客人的信息安全。有法可依,企业也需要担责,才能从根本上保障信...