大数据时代下，“匿名化”真的能保护我们的隐

大数据时代下，数据的收集与应用在带来巨大社会价值的同时,也带来了个人隐私保护方面的难题。如何在对数据进行挖掘应用的过程中保护个人隐私，防止敏感信息泄露成为新的挑战。

在此前备受关注的“剑桥分析公司数据泄露”事件中，Facebook上超过5000万用户的信息被一家名为“Cambridge Analytica”的公司不当获取并用于未经授权的目的。然而，根据Facebook的解释，这些个人信息，例如用户填写的心理测试结果，全部是在经过“匿名化”处理后才被用于对外分享的。公司表示，在获取用户的授权后，这些数据会“通过匿名的方式被使用和分发，并且保证即使利用这些信息也不能追溯到个人用户”。

然而“匿名化”真的可以在大数据时代保护我们的个人隐私吗?

本文是计算机科学家Tyler Elliot Bettilyon撰写的一篇关于数据匿名化的文章，也许能够帮我们从中找到问题的答案。

图片来源：pixabay

来源 Medium

编译张曦

2015年，数据匿名化和隐私领域的研究员Latanya Sweeney针对华盛顿HIPAA(Health Insurance Portability and Accountability)法案保护下的医疗记录数据进行了一项“去匿名化”研究。在该州(以及许多其他州)，公司和个人可以购买匿名的医疗记录数据。Sweeney通过合法渠道购买相关数据，其中包括“该州一年内几乎所有的住院治疗记录”以及就诊记录相关的大量细节，包括患者接受的诊断、手术，主治医生信息、收费摘要等等。这些记录都是匿名的，因为它们不包含患者的姓名或地址，但包括患者所在地址的邮政编码。

之后，Sweeney查阅了华盛顿州自2011年以来刊发的所有包含“住院治疗”一词的新闻报道，总共找到了81篇文章。通过对文章内容和匿名数据库进行比对分析，Sweeny发现其中35篇报道能够在数据库中找到与之精准对应的唯一医疗记录。而这些新闻报道中明确包含了患者的姓名，“成功”实现了对这35名患者的“去匿名化”。

众所周知，数据已成为现代社会发展的重要推动力。研究人员会收集大量的数据，并基于数据开展研究工作。Google的数据库可以包含你的完整搜索历史记录;Facebook存储着大量用户的行为、评论和照片信息。这些数据决定着我们会看到哪些新闻、电影和广告，哪些朋友的帖子会出现在我们社交媒体的feed流中，以及哪些潜在的伴侣会出现在我们的交友app中。然而，这里涉及的大部分数据都与我们的个人隐私息息相关。

政府、企业和研究机构持续收集着大量的数据

通常情况下，我们不会向陌生人透露我们的信用卡记录或医疗记录，因为我们对这些数据的敏感性有着清晰的认识。那么，为什么我们会泄露这些最私密的个人信息呢?原因是大多数人首先是数据“泄露”的受益者。Google通过收集数据优化搜索体验，并帮助Gmail过滤垃圾邮件;用户信用卡记录可以帮助银行监测信用卡盗刷行为;医疗记录可以帮助研究人员研发新药，或者帮助医生制定更好的治疗计划。

但人们享受这些益处并非没有代价。政府、企业和研究机构持续进行着大量的数据收集，而这仅仅是这一系列数据旅程的开始。它们将被重新打包，与来自其他来源的数据相结合，并通过合法或非法的方式被转售给“需要的人”。典型的数据包括：

❶ 你的位置(包括实时的与历史上的)

❷ 你的信用卡交易记录

❸ 你的网站浏览历史记录

❹ 你在网站的登录凭据

❺ 你的社会安全号码

❻ 你的医疗记录

即使你认为自己并没有什么需要隐藏的“秘密”，对个人数据的滥用仍可能对你造成不利影响。因此，大部分相关方在存储或转售个人信息时，一直在努力实现个人数据的“匿名化”。某些情况下，数据匿名化存在法律要求，例如HIPAA对个人医疗数据的要求，尽管HIPAA提供的保护并不像大多数人想象的那么强。类似的，欧盟最新的通用数据保护条例(GDPR)对能够识别个人身份信息的数据提出了严格的使用限制，相比之下，GDPR对匿名数据的使用限制则较少。

除此之外，有些公司已经将“数据匿名化”作为其战略的一部分。例如，与Google和Facebook不同，Apple刻意减少对数据的收集，因为拥有大量数据可能会使公司更容易成为黑客的目标。同时，Apple努力对收集的数据进行匿名化处理，并且不会对外转售用户数据。

这些举措很有勇气，值得鼓励。遗憾的是，研究表明，许多匿名化数据都很容易被“去匿名化”，尤其是当多个数据来源有一定程度的重叠的时候，区别一个数据来源和另一个数据来源的任一信息都能被用于去匿名化。

这里有一个关于“去匿名化”的知名案例。2006年，Netflix为改善其电影推荐服务，公布了包含部分用户评分的数据库，其中包括用户对电影的评分和评分日期。该数据库是匿名的，采用随机更改数据库中包含的大约480,000个用户的部分评级和评级日期等方法对数据库进行匿名化处理。

尽管存在这些干扰，但研究人员的实验结果表明：只需非常少的辅助信息，就可以对Netflix数据库中的大部分的用户记录进行去匿名化。通过8部电影的评分，和允许误差14天的评分日期，就可以唯一标识数据库中99%的用户;而仅通过2部电影，就可以标识68%的用户。而一个人观看8部电影的记录很容易获得，通过与其聊天或者查看他的博客就有可能得到。

电影评级可能看似无害，它们显然不如医疗记录敏感，但仍然可以揭示一个人的政治观点、宗教信仰和性取向等，从而严重侵犯一个人的隐私并使其处于危险之中。这对于当前的数据驱动型社会来说是一个严峻的挑战。

随着更多数据的公开或泄露去匿名化将变得更加容易

现实是，我们的数据正在被越来越多地被泄露和盗取。非营利组织Privacy Rights Clearinghouse的研究显示，自2005年开始，14年中共发生了8804次数据泄露，超过115亿条记录被泄露。这意味着自2005年以来，平均每天发生1.7次数据泄露，220万条记录被泄露。当别有用心的人将所有这些数据拼凑在一起时，数据的去匿名化将变的更加容易。

对于相关领域的学者来说，这些担忧并不是什么新闻。2010年，个人隐私律师Paul Ohm就曾在《UCLA法律评论》中刊文指出，虽然恶意攻击者可以使用个人身份信息(如姓名或社会安全号码)将数据与个人身份进行关联，但事实证明，即便只拥有那些不会被归类为“个人身份信息”的信息，他们也可以达到同样的目的。

Ohm参考了Sweeney早期的一些研究，她发现1990年美国人口普查中有87%的人可以通过两条信息进行唯一识别：他们的出生日期和他们住址的邮政编码。Ohm还引用了Netflix以及其他有关数据泄露的案例，并得出结论：在传统的以个人身份信息为保护重点的匿名化技术下，几乎任何数据都无法实现永久的完全匿名。

2013年，研究人员发现位置数据具有高度的独特性，因此更加难以匿名化。许多匿名数据库都可能间接泄露你的位置，例如刷卡消费或前往医院就诊。研究人员发现，通过每小时记录4次手机连接到的信号发射塔，就可以对95%的设备进行唯一识别。如果数据更精细(GPS跟踪而不是信号发射塔，或者实时采集而不是每小时采集)，匹配则会变得更加容易。

数据的合理利用具有积极的社会价值

然而不可否认的是，尽管面临被滥用的风险，但数据的合理利用同时又具有很多积极的社会价值。我们希望医学研究人员创造新的药物和治疗方法、希望我们的房屋能够自动调节到舒适的温度、希望Google地图提示我们前方道路拥堵。我们渴望大数据带来的益处，却又不想面临去匿名化的风险。

然而事实是，我们必须做出权衡。我们已经被迫放弃了一些隐私，未来可能还需要放弃更多，但真正关键的是如何降低我们的隐私被滥用的可能性。

保护敏感数据和防止未经授权的访问必须成为每一个数据收集者的第一要务。同时，监管机构也应持续加强对个人数据隐私的保护力度。例如，GDPR鼓励公司存储更少的数据并尽最大努力对存储的数据进行匿名化处理，即使这并非100%有效。

同样，参与数据收集和存储的每一方都应该及时了解最新的隐私保护技术。例如差分隐私(Differential Privacy，一种基于密码学的隐私保护技术)这样的策略，即在数据库发布之前将一些随机噪声添加到数据库中，这有助于减少基于数据关联性的攻击。Apple和Google都在研究差分隐私策略方面付出了很多努力，这些举措值得借鉴。

总而言之，我们需要坦诚面对数据带来的价值和风险，并谨慎权衡。一方面，我们希望释放大数据的力量，为我们的生活带来积极的改善。而另一方面，大量数据存在的本身就是一种隐私风险。如果我们放弃过多的隐私，大数据则可能进一步剥夺我们的自由。