引言
图数据目前已被广泛应用于生活中的各个领域。相较于列表等其他数据类型,图数据具有更强的表达能力:除通过结点表征实体属性信息外,还可以通过边清晰地表达结点实体间的链接关系,因此被普遍应用于现实生活与科学研究中[1]。典型的图数据包括社交网络、通讯网络、移动轨迹、传染病与医疗数据、合作网络、引用网络、交易信息网络、自治系统数据及其他拓扑图等,被政府、科研机构及企业应用于犯罪分子行为模式挖掘、疾病传播研究、推荐系统等政府数据挖掘、学术研究与商业应用当中.
然而图数据中蕴含大量的敏感信息,一旦泄露,造成的后果极为严重。除如社交网络中的个人资料、医疗数据中的诊疗记录、交易信息网络中的交易内容等图结点上的敏感文本属性外,图数据中还包含社会关系、医患关系、交易方式等边上的敏感链接关系.因此图数据的隐私泄露事件往往涉及人数众多、影响广泛。2018年,社交网络Facebook超过5000万用户个人信息遭到泄露,除个人资料等用户结点属性信息外,还包括好友资料、点赞与转发情况等用户结点间的关联关系.数据公司通过分析用户间的关联关系,准确推测出了用户的受教育情况、政治倾向、性取向,甚至是用户儿童时期受过的创伤,从而精准投放引导性信息,以达到左右用户行为的目的。此外,数据分析者还利用用户的好友列表,进一步扩大影响范围。最终,该隐私泄露事件累计波及到了8700万用户。Facebook也因此信誉受损、市值下跌,并面临累计超过16亿美元的罚款。
本文第2节从图数据隐私信息、泄露场景、与敌手模型三个方面综合分析了图数据在收集与发布中面临的隐私风险。第3节分析了目前在图数据模型上各类攻击算法及其量化方法,对攻击者的能力进行直观地说明。第4节介绍了图数据中简单匿名、图修改、聚类,及差分隐私四种主流隐私保护技术,并梳理了针对不同应用场景与数据类型的隐私防御算法。同时介绍了图数据隐私性与可用性度量及二者关系。第5节总结了当前图数据隐私保护中仍然存在的问题,并展望了未来可能的研究方向与挑战。第6节总结全文。
2隐私风险
隐私风险指的是在图发布与收集的过程中可能面临来自多种攻击者、对不同的攻击对象发起的各类攻击,从而导致图中的敏感信息泄露。本节将从隐私信息、隐私泄露场景、敌手模型三个方面,评估在图收集发布的过程中所面临的隐私风险。
2.1隐私信息隐私信息是图中可能泄露的各类敏感信息。文献[3]从结构上将图上的隐私信息主要分为结点上的隐私信息与边上的隐私信息两大类。而本文则根据文献[2],从内容的角度将图上的隐私信息分为身份信息、语义属性与链接关系三大类,并丰富了定义内涵。
身份信息指图数据中结点与结点所代表实体身份的一一对应关系,如:社交网络中结点所代表用户的用户姓名、用户ID等身份标识符。除结点与实体的对应关系外,在传染病传播图等数据中,结点本身在图中的存在性也是一个敏感信息。
语义属性指结点中除身份信息外其他可能泄露隐私的属性信息,通常包括敏感属性信息,如邮件通讯网络中与用户结点关联的邮件内容;或一组可以唯一确定结点身份的非敏感属性集合,即准标识符,如职业社交网络中用户结点的职业、性别、年龄、所在地邮编等。链接关系指结点所代表实体之间的关联关系,在图中用边表示。
2.2隐私泄露场景
隐私泄露场景是图数据发布与收集中可能泄露隐私的环节,主要包括图的集中式存储与图的分布式存储两种场景。图1为隐私泄露场景示意图。下面分别介绍两种场景下图数据面临的隐私问题。
除从实践上证明算法的可行性外,还有一系列的研究致力于从理论上给出匿名图可以被攻破的条件,以及不同背景知识对去匿名化的影响。不同于[1,14]等文献,本文除量化算法所基于的随机图模型外,还着重分析了各个经典量化算法针对的不同的去匿名化条件,并在表3中从理论模型假设、攻击类型,以及量化攻击时考虑的不同条件类型,全面总结了当前攻击量化研究成果.
4隐私防御
为抵御上述针对图数据的隐私攻击,研究者结合不同地隐私防御技术,提出了多种隐私防御的算法,本节将从图上的隐私防御技术、隐私防御算法,以及图的隐私性与可用性三方面展开介绍。
4.1隐私防御技术目前,针对图数据发布与收集的隐私防御技术主要可以分为简单匿名技术、图修改技术、聚类技术以及差分隐私技术四类。下面将依次介绍上述隐私防御技术及其实现机制.。
4.2隐私防御算法
5挑战与展望
5.1.2个性化隐私保护图数据在现实生活中图数据有广泛的应用,如基于社交网络、购买记录等的推荐系统,基于地理位置的路径规划,以及基于交易记录的欺诈检测等等。在不同类型的网络中对隐私保护强度有不同的需求。而在同一个网络中,同一个实体结点对不同的隐私信息也有不同的需求。以基于社交网络的朋友推荐为例,社交网络中的不同用户哪些属性为隐私属性,或者哪些链接关系为隐私链接关系都有不同的定义。还有一些用户不认为自己所在社交网络中存在隐私信息,反而希望服务提供商利用自己在社交网络中的信息,为自己提供更精准的好友推荐、社群推荐或者商品推荐等服务。在以往的研究中,还没有发现能够解决图数据上个性化隐私保护的可行方案。因此,如何针对不同网络中不同实体的隐私需求,在保护实体隐私的同时,为实体提供更好的服务是未来图数据隐私保护一个研究趋势。
5.1.3图数据的动态发布与多次收集
5.1.4面向主动攻击的隐私防御算法主动攻击者具有很强的攻击能力。现实中,主动攻击者可以通过在社交网络中创建僵尸账号并主动关联目标用户对用户发起隐私攻击。近年来有文献提出一种具有鲁棒性的主动攻击算法,可以以较高的准确度一次性对大量结点进行去匿名化攻击。该算法的提出,不仅使研究者更深刻认识到主动攻击者强大的攻击能力,更进一步提高了类似于社交网络等图中用户的隐私风险。然而,目前尚没有攻击算法可以有效缓解由此类攻击带来的隐私风险。因此如何在现有的隐私保护算法上进行提升,或者改进已有的隐私防御技术,使其能更好的应对具有主动攻击能力的攻击者是未来隐私保护技术发展一个可能方向.
5.2面向新应用场景的图数据隐私保护5.2.1面向图数据机器学习中的隐私保护图数据在机器学习领域有着非常广泛的应用,如基于神经网络的结点分类、链接预测、社群发现,对异常检测问题,商品及好友推荐问题等提供了巨大的帮助。然而,近年来越来越多的研究发现,机器学习中存在着巨大的隐私风险。攻击者可以通过机器学习发布的模型参数、预测结果等对训练集发起重构攻击、成员推断攻击等,导致训练集中数据隐私泄漏。已有的针对图数据的隐私保护算法只能用户对图数据训练集进行输入扰动,并且此类扰动算法由于添加的噪声过大,可能严重影响训练模型的可用性。而已有的针对机器学习的隐私保护策略,则面临着针对图训练数据隐私定义难,对关联数据扰动难等问题。因此如何在保证模型可用性的同时提出可行的隐私保护方法是未来一个可能的探索领域。
5.2.2隐私保护下的图性质多方共同计算
6总结
目前,图数据在现实生活与研究中被广泛的应用。与此同时,图数据中也存在极高的隐私风险。而图数据上丰富的信息,数据之间关联性强,给图数据上的隐私保护带来了巨大的挑战。本文分析了图的发布与收集中的隐私风险,综述了目前针对图数据隐私攻防的各类方案。综合二者,本文在最后给出了目前图数据上隐私保护研究的仍然存在的问题以及未来可能的研究方向。总之,图数据上的隐私保护研究虽然已经取得了一定的进展,但未来依旧有很高的研究价值与广阔的研究空间。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。