「图隐私攻击与防御技术」最新2022研究综述

如今,图数据已经被广泛地应用于现实生活与科学研究当中,有巨大的使用和研究价值.但与此同时,针对图数据的收集与发布中也存在巨大的隐私风险。如何在保护图隐私的同时,发布与收集可用图数据,是目前个人、企业、政府等面临的重大挑战.本文首先从隐私信息所包含的内容、不同的隐私泄露场景,以及敌手模型三个方面深入地剖析了图数据在使用中存在的隐私风险,然后重点从攻击和防御两个角度展开介绍.针对攻击而言,本文分析了当前可行的图数据隐私攻击与攻击量化算法及其算法原理。针对防御而言,本文总结了简单匿名、图修改、聚类,以及差分隐私四种图数据隐私防御技术;分析了集中与分布两种数据存储场景下,不同类型图数据使用的各类隐私防御算法,以及数据隐私性与可用性度量方法。最后本文综合已有的研究成果,指出了图数据上隐私保护研究当前存在的问题、面临的挑战,及未来的研究方向。

引言

图数据目前已被广泛应用于生活中的各个领域。相较于列表等其他数据类型,图数据具有更强的表达能力:除通过结点表征实体属性信息外,还可以通过边清晰地表达结点实体间的链接关系,因此被普遍应用于现实生活与科学研究中[1]。典型的图数据包括社交网络、通讯网络、移动轨迹、传染病与医疗数据、合作网络、引用网络、交易信息网络、自治系统数据及其他拓扑图等,被政府、科研机构及企业应用于犯罪分子行为模式挖掘、疾病传播研究、推荐系统等政府数据挖掘、学术研究与商业应用当中.

然而图数据中蕴含大量的敏感信息,一旦泄露,造成的后果极为严重。除如社交网络中的个人资料、医疗数据中的诊疗记录、交易信息网络中的交易内容等图结点上的敏感文本属性外,图数据中还包含社会关系、医患关系、交易方式等边上的敏感链接关系.因此图数据的隐私泄露事件往往涉及人数众多、影响广泛。2018年,社交网络Facebook超过5000万用户个人信息遭到泄露,除个人资料等用户结点属性信息外,还包括好友资料、点赞与转发情况等用户结点间的关联关系.数据公司通过分析用户间的关联关系,准确推测出了用户的受教育情况、政治倾向、性取向,甚至是用户儿童时期受过的创伤,从而精准投放引导性信息,以达到左右用户行为的目的。此外,数据分析者还利用用户的好友列表,进一步扩大影响范围。最终,该隐私泄露事件累计波及到了8700万用户。Facebook也因此信誉受损、市值下跌,并面临累计超过16亿美元的罚款。

本文第2节从图数据隐私信息、泄露场景、与敌手模型三个方面综合分析了图数据在收集与发布中面临的隐私风险。第3节分析了目前在图数据模型上各类攻击算法及其量化方法,对攻击者的能力进行直观地说明。第4节介绍了图数据中简单匿名、图修改、聚类,及差分隐私四种主流隐私保护技术,并梳理了针对不同应用场景与数据类型的隐私防御算法。同时介绍了图数据隐私性与可用性度量及二者关系。第5节总结了当前图数据隐私保护中仍然存在的问题,并展望了未来可能的研究方向与挑战。第6节总结全文。

2隐私风险

隐私风险指的是在图发布与收集的过程中可能面临来自多种攻击者、对不同的攻击对象发起的各类攻击,从而导致图中的敏感信息泄露。本节将从隐私信息、隐私泄露场景、敌手模型三个方面,评估在图收集发布的过程中所面临的隐私风险。

2.1隐私信息隐私信息是图中可能泄露的各类敏感信息。文献[3]从结构上将图上的隐私信息主要分为结点上的隐私信息与边上的隐私信息两大类。而本文则根据文献[2],从内容的角度将图上的隐私信息分为身份信息、语义属性与链接关系三大类,并丰富了定义内涵。

身份信息指图数据中结点与结点所代表实体身份的一一对应关系,如:社交网络中结点所代表用户的用户姓名、用户ID等身份标识符。除结点与实体的对应关系外,在传染病传播图等数据中,结点本身在图中的存在性也是一个敏感信息。

语义属性指结点中除身份信息外其他可能泄露隐私的属性信息,通常包括敏感属性信息,如邮件通讯网络中与用户结点关联的邮件内容;或一组可以唯一确定结点身份的非敏感属性集合,即准标识符,如职业社交网络中用户结点的职业、性别、年龄、所在地邮编等。链接关系指结点所代表实体之间的关联关系,在图中用边表示。

2.2隐私泄露场景

隐私泄露场景是图数据发布与收集中可能泄露隐私的环节,主要包括图的集中式存储与图的分布式存储两种场景。图1为隐私泄露场景示意图。下面分别介绍两种场景下图数据面临的隐私问题。

除从实践上证明算法的可行性外,还有一系列的研究致力于从理论上给出匿名图可以被攻破的条件,以及不同背景知识对去匿名化的影响。不同于[1,14]等文献,本文除量化算法所基于的随机图模型外,还着重分析了各个经典量化算法针对的不同的去匿名化条件,并在表3中从理论模型假设、攻击类型,以及量化攻击时考虑的不同条件类型,全面总结了当前攻击量化研究成果.

4隐私防御

为抵御上述针对图数据的隐私攻击,研究者结合不同地隐私防御技术,提出了多种隐私防御的算法,本节将从图上的隐私防御技术、隐私防御算法,以及图的隐私性与可用性三方面展开介绍。

4.1隐私防御技术目前,针对图数据发布与收集的隐私防御技术主要可以分为简单匿名技术、图修改技术、聚类技术以及差分隐私技术四类。下面将依次介绍上述隐私防御技术及其实现机制.。

4.2隐私防御算法

5挑战与展望

5.1.2个性化隐私保护图数据在现实生活中图数据有广泛的应用,如基于社交网络、购买记录等的推荐系统,基于地理位置的路径规划,以及基于交易记录的欺诈检测等等。在不同类型的网络中对隐私保护强度有不同的需求。而在同一个网络中,同一个实体结点对不同的隐私信息也有不同的需求。以基于社交网络的朋友推荐为例,社交网络中的不同用户哪些属性为隐私属性,或者哪些链接关系为隐私链接关系都有不同的定义。还有一些用户不认为自己所在社交网络中存在隐私信息,反而希望服务提供商利用自己在社交网络中的信息,为自己提供更精准的好友推荐、社群推荐或者商品推荐等服务。在以往的研究中,还没有发现能够解决图数据上个性化隐私保护的可行方案。因此,如何针对不同网络中不同实体的隐私需求,在保护实体隐私的同时,为实体提供更好的服务是未来图数据隐私保护一个研究趋势。

5.1.3图数据的动态发布与多次收集

5.1.4面向主动攻击的隐私防御算法主动攻击者具有很强的攻击能力。现实中,主动攻击者可以通过在社交网络中创建僵尸账号并主动关联目标用户对用户发起隐私攻击。近年来有文献提出一种具有鲁棒性的主动攻击算法,可以以较高的准确度一次性对大量结点进行去匿名化攻击。该算法的提出,不仅使研究者更深刻认识到主动攻击者强大的攻击能力,更进一步提高了类似于社交网络等图中用户的隐私风险。然而,目前尚没有攻击算法可以有效缓解由此类攻击带来的隐私风险。因此如何在现有的隐私保护算法上进行提升,或者改进已有的隐私防御技术,使其能更好的应对具有主动攻击能力的攻击者是未来隐私保护技术发展一个可能方向.

5.2面向新应用场景的图数据隐私保护5.2.1面向图数据机器学习中的隐私保护图数据在机器学习领域有着非常广泛的应用,如基于神经网络的结点分类、链接预测、社群发现,对异常检测问题,商品及好友推荐问题等提供了巨大的帮助。然而,近年来越来越多的研究发现,机器学习中存在着巨大的隐私风险。攻击者可以通过机器学习发布的模型参数、预测结果等对训练集发起重构攻击、成员推断攻击等,导致训练集中数据隐私泄漏。已有的针对图数据的隐私保护算法只能用户对图数据训练集进行输入扰动,并且此类扰动算法由于添加的噪声过大,可能严重影响训练模型的可用性。而已有的针对机器学习的隐私保护策略,则面临着针对图训练数据隐私定义难,对关联数据扰动难等问题。因此如何在保证模型可用性的同时提出可行的隐私保护方法是未来一个可能的探索领域。

5.2.2隐私保护下的图性质多方共同计算

6总结

目前,图数据在现实生活与研究中被广泛的应用。与此同时,图数据中也存在极高的隐私风险。而图数据上丰富的信息,数据之间关联性强,给图数据上的隐私保护带来了巨大的挑战。本文分析了图的发布与收集中的隐私风险,综述了目前针对图数据隐私攻防的各类方案。综合二者,本文在最后给出了目前图数据上隐私保护研究的仍然存在的问题以及未来可能的研究方向。总之,图数据上的隐私保护研究虽然已经取得了一定的进展,但未来依旧有很高的研究价值与广阔的研究空间。

*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

THE END
1.数据挖掘的数据安全与隐私数据隐私是指个人信息在收集、存储、处理和传输过程中的保护。数据隐私涉及到个人信息的收集、使用、传播和存储等各个环节,旨在保护个人的隐私权益。数据隐私的主要要素包括法律法规、技术手段、组织管理等。 在数据挖掘中,数据隐私问题主要表现为以下几个方面: https://blog.csdn.net/universsky2015/article/details/137314095
2.隐私保护机器学习:保护敏感数据的技术电子创新网Imgtec社区安全多方计算(Secure Multi-Party Computation, SMC)是一种加密技术,使得多个参与方可以共同计算某个函数的结果,而无需直接透露各自的输入数据。这种技术对于保护隐私尤为重要,特别是在那些需要数据共享与合作但又对数据隐私有高度要求的场景中。 例如,在金融、医疗或政府机构等领域,组织间常常需要合作处理和分析数据以https://imgtec.eetrend.com/blog/2024/100585463.html
3.数据挖掘的隐私概念数据挖掘与隐私保护一、隐私保护 现在,互联网上隐私是一个非常严重的问题。 隐私保护的数据挖掘是一个方兴未艾的研究领域。 因为我们都要去获取数据,但是怎么样才能既保护数据的隐私又能获得我们需要的数据?我们不能用常规的调查问卷收数据,如何设计调查问卷是个有趣的问题。 https://blog.51cto.com/u_16213620/9256859
4.人工智能技术的发展与隐私安全随着人工智能技术的快速发展,ChatGPT等对话模型正日益成为我们日常生活中的一部分。然而,随着其广泛应用的增加,人工智能也面临着一系列伦理挑战。AI应用程序和技术的发展与传播将成为人类的双向道路:一方面,这会通过使用更隐含的心理和行为数据,不断带来个人隐私侵犯,心理操纵增加等问题;另一方面,消费者将获得更好品类和https://zhuanlan.zhihu.com/p/664398565
5.采用加密技术在数据挖掘过程中隐藏敏感数据的方法属于()。【答案】:D 基于数据加密的技术:采用加密技术在数据挖掘过程中隐藏敏感数据的方法。https://zhidao.baidu.com/question/1935117475430413067.html
6.大数据差分隐私保护解决方案所以若想成功解决数据挖掘中的隐私泄露问题,就是要在挖掘过程中选择合适的隐私保护技术,使其尽量避免隐私数据被挖掘者泄露的同时,又能够保证挖掘结果的准确性。 有关保护隐私的问题最早在20世纪70年代末被提出[2],此后众多学者陆续地研发出许多隐私保护的模型。在当前已有的隐私保护模型中,K-匿名[3]模型及在相同理论https://www.360docs.net/doc/c2bfbe09db38376baf1ffc4ffe4733687f21fcf4.html
7.浅谈数据挖掘中的个人信息保护浅谈数据挖掘中的个人信息保护 【摘要】数据挖掘是当今社会最为重要的发现工具,它在为人们揭示出数据中的隐藏规律并创造出财富的同时,也对各类数据有着大量的需求。随着互联网的出现和发展,对所需数据的收集、交换和发布的过程正变得越来越便利。然而,这些丰富的数据资源中也同时包含着大量的个人隐私。更令人担忧的是http://media-ethic.ccnu.edu.cn/info/1168/2097.htm
8.大数据隐私保护第9篇洞察研究大数据隐私保护-第9篇-洞察研究  下载积分: 1388 内容提示: 大数据隐私保护 第一部分 大数据隐私保护原则 2 第二部分 数据加密技术与应用 6 第三部分 异构数据隐私保护方法 https://www.doc88.com/p-69719764649174.html
9.科学网—[转载]教育大数据隐私保护机制与技术研究而在技术层面上,学者们更加关注隐私保护机制改进,Gursoy M E等人提出学习分析过程中的隐私保护机制,将匿名和差异隐私两种大数据隐私保护技术运用到教育领域,解决教育数据发布和挖掘中的隐私泄露问题;Askinadze A等人则针对教育领域内数据挖掘算法的透明度进行了优化,让学生可自由选择数据存储及与第三方共享时的信息内容,https://blog.sciencenet.cn/blog-3472670-1280768.html
10.大数据分析的关键技术有哪些大数据分析的关键技术包括以下5条:1、数据清洗与融合;2、大数据处理框架;3、大数据建模与分析;4、大数据可视化;5、大数据隐私保护。大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的数据处理技术。大数据价值的完整体现需要多种技术的协同。大数据关键https://www.linkflowtech.com/news/2065
11.同态加密技术及其在云计算隐私保护中的应用用户提供隐私安全保护已成为当前学界研究的一个热点.近年来, 隐私信息检索(private information retrieval)[1-3]、可搜索加密(searchable encryption)[4-8]、多方安全计算(secure multi-party computation)[9,10]技术大量地应用到了云中数据的隐私保护中, 隐私信息检索和可搜索加密技术使用户可以对加密数据进行检索获取https://jos.org.cn/html/2018/7/5354.htm
12.大数据系统隐私保护关键技术是什么?包括随机化,即对原始数据加入随机噪声,然后发布扰动后数据的方法;第二种是阻塞与凝聚,阻塞是指不发布某些特定数据的方法,凝聚是指原始数据记录分组存储统计信息的方法;第三类是差分隐私保护。 基于数据加密的技术,采用加密技术在数据挖掘过程隐藏敏感数据的方法,包括安全多方计算 SMC,即使两个或多个站点通过某种协议完成https://www.elecfans.com/d/2000987.html
13.去中心化的和隐私保护的密钥管理模型技术交流Pinkas[11]详细讨论了SMC和各种隐私保护数据挖掘技术。早期的RSA签名多方共享的例子是Santis等人提出的。 秘密门限共享和秘密分割是指将秘密分配到多个秘密份额中。这些股份随后由多个参与者公开。为了恢复秘密,必须从参与者那里取回预定数量的秘密份额。更正式地,给定参与者的有限集合P和参与者的子集的集合Γ,秘密门限方https://ac.nowcoder.com/discuss/1008170?type=1&order=3&page=0&channel=-1
14.大数据环境下的隐私保护技术新闻基于数据加密的技术采用加密技术在数据挖掘过程隐藏敏感数据的方法,包括安全多方计算 SMC,即使两个或多个站点通过某种协议完成计算后,每一方都只知道自己的输入数据和所有数据计算后的最终结果;还包括分布式匿名化,即保证站点数据隐私、收集足够的信息实现利用率尽量大的数据匿名 http://news.cntv.cn/2015/06/01/ARTI1433163987908952.shtml
15.个人信息安全保护措施论文(共13篇)大数据没有内部和外部数据库的划分,所以用户的隐私数据可以放在资源池中被任何用户访问,这为hacker提供了便利的信息获取渠道,并且能够通过数据之间的关联性挖掘出更加隐私的数据,拓宽了个人信息窃取的渠道,给个人信息安全造成极大的隐患。 篇2:个人信息安全保护措施论文https://www.hrrsj.com/wendang/lunwen/666365.html
16.数据安全挖掘技术包括哪些帆软数字化转型知识库数据安全挖掘技术包括数据加密、访问控制、数据屏蔽、隐私保护、多方安全计算、数据伪装、风险评估和监控。其中,数据加密是核心技术之一,详细描述如下:数据加密是将原始数据通过某种算法转换成不可读的密文,只有拥有解密密钥的人才能恢复数据。这种技术可以有效防止数据在传输和存储过程中被非法访问或窃取。通常使用的加密算法https://www.fanruan.com/blog/article/600319/
17.魏晓东大数据技术应用下医疗行为中个人信息保护的困境与解决四、大数据技术下医疗行为中个人信息保护的困境解决 我国个人信息保护法采取的规范形式与民法典人格权编中个人信息保护的规范形式是不同的,个人信息保护法采取了“事前同意”式的财产性规范模式,该法提出的个人信息权益概念,从解释论角度,也更像财产权。个人信息保护宗旨应是保护隐私权,个人信息保护法的财产性规范模式https://www.jfdaily.com/sgh/detail?id=1044300
18.[隐私政策]为了保证服务体验、处理服务纠纷,您在订单履行过程中拨打或者接听开启号码保护(隐私号)的电话时,您与商家、骑手间的通话信息可能会被录音。有关上述信息的收集和使用规则如下,或参见订单页面中的提示内容。 (1)当您与商家、骑手出现服务纠纷或发生违法违规行为时,平台可依据法律法规或相关规则/协议调取并使用录音信息作https://rules-center.meituan.com/rules-detail/137?commonType=7
19.有关保护个人信息安全论文(精选9篇)关键词:大数据;个人信息安全;数据匿名保护技术;数据水印保护技术;数据溯源技术 大数据为社会的发展、商业的预测、科学的进步提供了有效的数据支持,是数据服务的基础,大数据中关于个人信息的数据越来越多,不仅包含了个人的基础信息还包含了各种关联性的信息,从大数据环境中分析搜索资料,已经成为个人信息窃取的主要渠道。2https://www.ruiwen.com/lunwen/1047507.html
20.有人说科技公司是吃数据饭的与他们讨论数据隐私的保护是33.有人说,科技公司是吃数据饭的,与他们讨论数据隐私的保护是___。通俗地说,数据权利保护就是把缺乏监管的数据关进"笼子",把"笼子"的钥匙还给用户,这需要民意、技术、立法机构多方___。 A求全责备 竞争 B与虎谋皮 博弈 C缘木求鱼切磋 D水中捞月https://www.12tiku.com/newtiku/9999/8861562.html
21.大数据技术原理与应用期末复习知识点全总结(林子雨版3.数据处理与分析层面 功能:利用分布或并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据 4.数据安全和隐私保护层面 功能:在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人https://developer.aliyun.com/article/1418435