位置隐私保护技术研究综述

随着智能手机和无线网络的广泛应用,移动应用近年来呈现出爆炸式的增长。据统计2014年全球移动应用的使用量增长了76%[1]。至2014年底,谷歌Play拥有143万款应用,AppleStore拥有121万款应用[2],其中基于位置的服务(Location-basedService,LBS)备受用户青睐。以百度地图为例,从2012年成立至今,用户数从最初7000万增长到超2亿活跃用户[3],它提供的定位、导航、查询等位置信息服务为现代生活带来了极大的便利。然而,用户提交的位置服务请求和自己的位置信息在一定程度上会对个人的隐私造成泄露风险[4][5]。一方面,对某些用户而言,其位置信息本身就是隐私数据;另一方面,攻击者可以根据位置信息来推测用户的个人身份、工作性质、健康状况或者兴趣爱好等隐私信息[6]-[9]。

近年来,学术界对位置隐私保护问题进行了广泛的研究,并提出了一系列保护方法。从已有的位置隐私保护技术来看,可以将其分为四类,即空间模糊化、虚拟对象、隐私信息检索(PrivacyInformationRetrieval,PIR)和差分隐私保护。其中,空间模糊化技术是将用户的真实位置模糊成一个满足用户个性隐私需求的空间,并用模糊后的空间代替精确位置提交给位置信息服务器处理;虚拟对象技术将虚拟的对象与真实对象混合在一起作为位置服务请求发送者,使攻击者无法实现位置与用户的准确映射,这种方法的研究重点在于如何合理的选择虚拟对象;PIR技术是基于不可信数据库提出的隐私保护技术,它能实现用户访问服务器的同时阻止服务器获知用户访问内容,提供了高水平的隐私保护,该技术最大的挑战在于设计一个好的检索算法来加快检索效率和降低存储空间;差分隐私是近年来提出的一种新的隐私保护定义,由于其独立于攻击者的背景知识,并提供了严格的、可证明的隐私保护,成为目前隐私保护领域的一个研究热点。

本文首先分析LBS系统所面临的隐私泄露风险,然后对以上四类隐私保护技术的基本原理和实现方法进行综述,通过对已有研究成果的梳理,详细分析和比较这些技术的优缺点,最后探讨位置隐私保护技术在未来的研究方向。

2.LBS的基本结构与威胁分析

2.1.LBS的基本结构

Figure1.BasicframeworkofLBSsystem

端。用户及查询结果的位置信息由定位系统提供。可见,位置信息是LBS网络中传输的最核心数据,也是位置隐私保护的对象。

2.2.LBS面临的隐私泄露威胁

(1)物理威胁:攻击者直接攻击传输网络或者服务器等物理设备获取用户最原始的位置信息;

(2)推理威胁:攻击者在获得用户的位置信息后,利用观察、推理、挖掘等技术推断出关于用户的隐私信息[13];

(3)联合攻击:攻击者在获得用户位置信息后联合用户使用的其他移动应用等外部资源,对用户隐私进行更深度的挖掘。例如,攻击者可以联合用户的社交网络信息来挖掘用户朋友的隐私信息[14]。

显然,物理威胁只涉及到用户的物理位置信息,推理威胁会危及到用户的个人身份信息,联合攻击则影响到了用户的整个生活环境。位置隐私的泄露是导致以上威胁的根本原因。

3.位置隐私保护技术

近年来,学术界对位置隐私保护的研究取得了丰富的成果,各种隐私保护理论与模型在位置隐私保护中得到应用。本节对已有的位置隐私保护技术进行梳理和比较。

3.1.空间模糊化

从实际应用效果来看,空间匿名技术能够为位置隐私保护提供了一个个性化的解决方案,但其缺点在于对区域的人口密度比较敏感。另外,匿名器的处理性能及其自身的安全性都会影响到空间匿名技术的应用效果。

Figure2.DatastructureofCaspermodel

(a)(b)

Figure3.Relativelocationattack.(a)Forwarddeducing;(b)Backwarddeducing

Figure4.RequirementsofiCliqueCloak

3.2.虚拟对象(Dummy)

Dummy[23]-[26]的保护方式简单来说就是用户在提交位置服务请求时,将自己的真实位置和几个虚假位置一起提交给LBS服务器,LBS服务器针对所有提交的位置分别进行查询处理,将所有结果返还给用户,用户再根据自己的真实位置进行筛选。在Dummy的方法中,如何选择虚拟对象的位置是一个关键问题。对此,文献[24]提出了虚拟对象在分布上的一般性要求,包括分散性、稠密性和均匀性。

Figure5.Circle-baseddummy

Figure6.Grid-baseddummy

Dummy的生成方式解决了Casper模型过于依赖区域人口密度的缺点,但其自身的缺点也不可忽视,PAD算法中取得虚拟位置的方法过于规则化,而忽略了实际的地理特征。例如,按照这种规则化的方式选取的虚拟位置可能在现实环境中根本不可能有活动对象出现,那么这个虚拟位置就失去了混淆攻击者的功能。类似的,如果攻击者预先掌握了一些背景知识,例如地理环境、区域人口密度、运动最大速度等,即可实施背景知识攻击[27][28],将这些背景知识与获取的用户位置信息结合来推断用户的位置隐私和其他隐私信息。因此,为了阻止背景知识攻击,在选取虚拟位置时要使虚拟位置更接近真实对象的运动特点和规律。

(1)

使用Dummy的位置隐私保护机制的优点在于能够摆脱对现实环境的过度依赖,无论在人口密集区

Figure7.DummyselectioninDLS

还是稀疏区都能较好地满足用户的隐私需求,提高了匿名化的成功率。但这些方法共同的不足在于,攻击者所掌握的背景知识是难以量化和准确建模的,因此在选取虚拟对象时往往忽略了对背景知识的考虑或者仅仅根据特定的背景知识假设提出针对性的解决方案,这样的保护机制无法应对基于新的背景知识的攻击。

3.3.隐私信息检索

在服务器中储存了整个地区的地图和兴趣点(pointsofinterest,POIs)信息,LBS根据索引结构将DB划分为几个子数据库DB1,DB2,…,PIR处理器根据用户的请求对DB1,DB2,…进行查询,并将结果返还给用户。在信息查询过程中,PIR处理器就像一个黑盒子自动完成查询而不让服务器知道它访问了哪些子数据库。因此,这类方法的研究重点在于如何设计索引结构和访问顺序从而减少执行的检索复杂度和储存空间。文献[34]利用Hilbert空间曲线将POI的二维存储方式转化为H值的一维存储方式,减少了存储空间,并将POI根据H值的大小按照B+-tree的结构来组织,以便简化检索次数。文献[33]则将存储区

Figure8.LBSwithhardware-basedPIR

域用网格表示,并用Hilbert值表示每个网格单元,同时建立了3个数据库DB1,DB2,DB3来分别存储POI的不同信息。DB1按照H值的顺序存储每个网格单元中POI的数量信息,DB2按照H值存储每个POI的ID、坐标和指向DB3的指针,DB3存储了每个POI的其他详细信息。这样的存储结构能够在不遍历整个数据库的前提下高效地进行kNN(kNearestNeighbor)查询。首先根据用户的位置信息在DB1中查找kNN,然后在DB2中确定kNN的ID和坐标,并根据指针在DB3中获取kNN的详细信息。除此之外,还为每个查询建立了查询计划,保证每个查询都按照同样的顺序和次数进行检索,以避免外部的模式攻击。

3.4.差分隐私

差分隐私是由Dwork在2006年提出的一种新的隐私安全定义[41]。它能够保证数据集的查询结果对某个具体记录的变化不敏感,因此,一个记录存在于一个数据集里,就像它不存在于数据集里一样安全,攻击者无法通过观察和计算查询结果来推测用户的隐私信息[42]。差分隐私的定义[43]为:设随机算法M,Range(M)为M所有可能的输出集合,对于任何两个邻近数据集D1和D2,以及Range(M)的子集,若算法M满足:

则称算法M提供ε-差分隐私保护,其中ε称为隐私保护预算。从原理上看,隐私实质上是将数据集的精确查询结果转化为一个分布,使得对两个邻近数据集进行查询得到相同结果的概率几乎相同。Laplace机制[44]和指数机制[45]是两种最基本的差分隐私实现机制。其中,Laplace机制用于查询结果为数值型的情况,指数机制则用于保护非数值型查询结果。

由于差分隐私无需考虑攻击者掌握的任何背景知识,并能提供严格可证明的隐私保护,因此在隐私保护数据发布[46]-[49]和隐私保护数据挖掘[50]-[54]等方面得到广泛的研究和应用。显然,差分隐私更适用于保护多用户的聚合信息,在只涉及单个用户的位置隐私保护问题上并不合适。根据差分隐私的定义,用户位置的变化对查询结果的影响须微乎其微,这使得查询变得毫无意义。为解决这一问题,文献[55]将差分隐私与k-anonymity结合起来,提出了一种混合模型,对于由k个位置构成的匿名集合,在提交位置时要求以相近的概率(小于)输出k个位置中的任意一个。该模型的主要问题在于,匿名集合的选取对最终的隐私保护结果影响过大。

为此,文献[56]利用差分隐私的定义,提出了一种地域不可区分模型(Geo-Indistinguishability)。该模型基于位置隐私保护的现实,认为用户位置的微小变化应该对查询结果影响很小,但当用户位置变化较大时,查询结果可以有较大的变化,因此可以根据用户位置的变化程度来设定相应的隐私保护水平。Geo-Indistinguishability的定义为:设X表示用户可能的位置集合,Z表示可能发布的位置集合,d(·,·)表示欧氏距离,对于任意两个位置和并且,若算法K满足:

如何降低噪声量是差分隐私在应用中无法回避的问题。文献[57]认为,Geo-Indistinguishability模型在保护单个位置(用户只进行一次查询)时是有效的,但一个用户往往会进行多次查询,连续的位置变化会形成轨迹,如果将Geo-Indistinguishability独立地应用到每个位置上,所产生的噪声量将是不可接受的。根据差分隐私中位数机制(medianmechanism)[58]的基本思想,充分利用查询之间的关联关系,可以有效提高隐私保护预算的利用效率,因此,文中提出了一种针对位置保护的可预测差分隐私机制。该机制由预测函数、加噪机制和测试机制构成。预测函数根据先前提交的位置来预测当前须提交的新位置,然后由测试机制来测试与用户当前位置的距离是否在某个阈值之内,如果是,则直接提交,否则才调用加噪机制来产生新的位置。由于仅在调用加噪机制时才消耗隐私保护预算,所以可极大地提高预算利用率,降低噪声。另外,文献[59]针对降噪问题提出了一种面向位置数据发布的差分隐私保护算法

Figure9.Privacylevelvarieswithr

(PriLocation)。位置数据发布的内容通常包括用户到过的位置集及其统计频次,如果直接应用差分隐私来保护发布的内容,将会因为位置频次的稀疏性导致噪声量过大。PriLocation算法由位置聚类、权重干扰、位置选择等三个操作构成,首先根据距离将所有位置划分到k个簇中,每个位置则泛化为其所在的簇;然后将每个用户的位置统计频次转化为簇的频次统计,并用Laplace噪声进行干扰;最后利用指数机制从涉及的簇中选择位置作为用户到过的位置。由于簇的数量要远小于位置的数量,使得加入噪声的次数急剧减少,从而降低了噪声量。

差分隐私的主要优点在于它对攻击者所掌握的背景知识完全免疫,能够为用户提供强健的隐私保护。但从其在位置隐私保护中的应用效果来看,在有些方面还有待继续深入的研究,包括:(1)在处理高敏感度查询时,添加的噪声过大,会极大地降低数据的可用性;(2)给定的隐私预保护算会限制数据查询次数;(3)计算复杂度普遍较高。

3.5.小结

总的来看,空间模糊化和虚拟对象技术相对成熟,能够较好地达到数据安全性和可用性的平衡,在目前来说,实用性相对较好;PIR技术由于基于密码学基础,能够提供高水平的隐私保护,但计算代价高是其主要劣势,因此主要更适合于安全级别要求较高的场合;差分隐私能够提供可控的和可证明的隐私保护,但噪声大进而影响到数据可用性是有待继续研究的问题。

4.未来的研究方向

位置隐私保护是一个相对年轻的研究领域,从目前的研究现状来看,在理论基础和实现技术等许多方面尚有待深入研究。同时,随着移动通信业务的不断推陈出新,位置隐私保护也必将面临更多的挑战,其未来的研究方向主要包括以下几个方面:

(1)隐私保护参数的设置与优化

位置隐私保护技术在理论上都是基于一些隐私保护模型,例如k-anonymity[19]、l-diversity[60]、t-closeness[27]、m-invariance[61]、p-confidentiality[62]、ε-DP[43]等,其隐私保护水平都是由相应的隐私保护参数来调节的。如何通过对这些参数的设置来达到隐私保护水平和服务水平的最佳平衡,即如何寻求隐私保护参数的最优解,是一个需要继续研究的问题,它可能涉及到对用户的调查、对行为和心理的评估,以及对现实环境的分析等。

Table1.Comparisonbetweenlocationprivacypreservingtechniques

(2)个性化的位置隐私保护方案

在现实当中,对隐私保护的需求往往因用户或地域的不同而有很大的区别。但目前的位置隐私保护方案大多并没有考虑这些多样化的需求,隐私保护系统往往工作在某种统一的设置下。虽然有些研究已经意识到这个问题并提出了相应的解决方法[63][64],但这些方法大多工作在特定的环境下,还不具备一般通用性。设计细粒度的、支持不同层次的隐私水平的个性化隐私保护方案是未来的一个研究方向[65]。

(3)社交网络中的位置隐私保护

社交网络的风靡对隐私保护提出了新的挑战[66]。在移动互联网中,位置数据与图片、文字、音频数据结合在一起,一般的结构化数据转变为非结构化数据,同时,采用实名认证的移动社交网络将个人身份信息与位置信息进行了绑定,社交网络中与用户之间的互动则导致隐私暴露的范围扩大。传统的隐私保护方法并不能适应这些新的变化,研究社交网络的位置隐私保护方法是未来的一个重要的研究方向。

5.结束语

基金项目

国家自然科学基金项目(61304067);湖北省自然科学基金项目(2014CFB354);中央高校基本科研业务费专项资金(31541511301)。

THE END
1.数据挖掘的数据安全与隐私数据隐私是指个人信息在收集、存储、处理和传输过程中的保护。数据隐私涉及到个人信息的收集、使用、传播和存储等各个环节,旨在保护个人的隐私权益。数据隐私的主要要素包括法律法规、技术手段、组织管理等。 在数据挖掘中,数据隐私问题主要表现为以下几个方面: https://blog.csdn.net/universsky2015/article/details/137314095
2.隐私保护机器学习:保护敏感数据的技术电子创新网Imgtec社区安全多方计算(Secure Multi-Party Computation, SMC)是一种加密技术,使得多个参与方可以共同计算某个函数的结果,而无需直接透露各自的输入数据。这种技术对于保护隐私尤为重要,特别是在那些需要数据共享与合作但又对数据隐私有高度要求的场景中。 例如,在金融、医疗或政府机构等领域,组织间常常需要合作处理和分析数据以https://imgtec.eetrend.com/blog/2024/100585463.html
3.数据挖掘的隐私概念数据挖掘与隐私保护一、隐私保护 现在,互联网上隐私是一个非常严重的问题。 隐私保护的数据挖掘是一个方兴未艾的研究领域。 因为我们都要去获取数据,但是怎么样才能既保护数据的隐私又能获得我们需要的数据?我们不能用常规的调查问卷收数据,如何设计调查问卷是个有趣的问题。 https://blog.51cto.com/u_16213620/9256859
4.人工智能技术的发展与隐私安全随着人工智能技术的快速发展,ChatGPT等对话模型正日益成为我们日常生活中的一部分。然而,随着其广泛应用的增加,人工智能也面临着一系列伦理挑战。AI应用程序和技术的发展与传播将成为人类的双向道路:一方面,这会通过使用更隐含的心理和行为数据,不断带来个人隐私侵犯,心理操纵增加等问题;另一方面,消费者将获得更好品类和https://zhuanlan.zhihu.com/p/664398565
5.采用加密技术在数据挖掘过程中隐藏敏感数据的方法属于()。【答案】:D 基于数据加密的技术:采用加密技术在数据挖掘过程中隐藏敏感数据的方法。https://zhidao.baidu.com/question/1935117475430413067.html
6.大数据差分隐私保护解决方案所以若想成功解决数据挖掘中的隐私泄露问题,就是要在挖掘过程中选择合适的隐私保护技术,使其尽量避免隐私数据被挖掘者泄露的同时,又能够保证挖掘结果的准确性。 有关保护隐私的问题最早在20世纪70年代末被提出[2],此后众多学者陆续地研发出许多隐私保护的模型。在当前已有的隐私保护模型中,K-匿名[3]模型及在相同理论https://www.360docs.net/doc/c2bfbe09db38376baf1ffc4ffe4733687f21fcf4.html
7.浅谈数据挖掘中的个人信息保护浅谈数据挖掘中的个人信息保护 【摘要】数据挖掘是当今社会最为重要的发现工具,它在为人们揭示出数据中的隐藏规律并创造出财富的同时,也对各类数据有着大量的需求。随着互联网的出现和发展,对所需数据的收集、交换和发布的过程正变得越来越便利。然而,这些丰富的数据资源中也同时包含着大量的个人隐私。更令人担忧的是http://media-ethic.ccnu.edu.cn/info/1168/2097.htm
8.大数据隐私保护第9篇洞察研究大数据隐私保护-第9篇-洞察研究  下载积分: 1388 内容提示: 大数据隐私保护 第一部分 大数据隐私保护原则 2 第二部分 数据加密技术与应用 6 第三部分 异构数据隐私保护方法 https://www.doc88.com/p-69719764649174.html
9.科学网—[转载]教育大数据隐私保护机制与技术研究而在技术层面上,学者们更加关注隐私保护机制改进,Gursoy M E等人提出学习分析过程中的隐私保护机制,将匿名和差异隐私两种大数据隐私保护技术运用到教育领域,解决教育数据发布和挖掘中的隐私泄露问题;Askinadze A等人则针对教育领域内数据挖掘算法的透明度进行了优化,让学生可自由选择数据存储及与第三方共享时的信息内容,https://blog.sciencenet.cn/blog-3472670-1280768.html
10.大数据分析的关键技术有哪些大数据分析的关键技术包括以下5条:1、数据清洗与融合;2、大数据处理框架;3、大数据建模与分析;4、大数据可视化;5、大数据隐私保护。大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的数据处理技术。大数据价值的完整体现需要多种技术的协同。大数据关键https://www.linkflowtech.com/news/2065
11.同态加密技术及其在云计算隐私保护中的应用用户提供隐私安全保护已成为当前学界研究的一个热点.近年来, 隐私信息检索(private information retrieval)[1-3]、可搜索加密(searchable encryption)[4-8]、多方安全计算(secure multi-party computation)[9,10]技术大量地应用到了云中数据的隐私保护中, 隐私信息检索和可搜索加密技术使用户可以对加密数据进行检索获取https://jos.org.cn/html/2018/7/5354.htm
12.大数据系统隐私保护关键技术是什么?包括随机化,即对原始数据加入随机噪声,然后发布扰动后数据的方法;第二种是阻塞与凝聚,阻塞是指不发布某些特定数据的方法,凝聚是指原始数据记录分组存储统计信息的方法;第三类是差分隐私保护。 基于数据加密的技术,采用加密技术在数据挖掘过程隐藏敏感数据的方法,包括安全多方计算 SMC,即使两个或多个站点通过某种协议完成https://www.elecfans.com/d/2000987.html
13.去中心化的和隐私保护的密钥管理模型技术交流Pinkas[11]详细讨论了SMC和各种隐私保护数据挖掘技术。早期的RSA签名多方共享的例子是Santis等人提出的。 秘密门限共享和秘密分割是指将秘密分配到多个秘密份额中。这些股份随后由多个参与者公开。为了恢复秘密,必须从参与者那里取回预定数量的秘密份额。更正式地,给定参与者的有限集合P和参与者的子集的集合Γ,秘密门限方https://ac.nowcoder.com/discuss/1008170?type=1&order=3&page=0&channel=-1
14.大数据环境下的隐私保护技术新闻基于数据加密的技术采用加密技术在数据挖掘过程隐藏敏感数据的方法,包括安全多方计算 SMC,即使两个或多个站点通过某种协议完成计算后,每一方都只知道自己的输入数据和所有数据计算后的最终结果;还包括分布式匿名化,即保证站点数据隐私、收集足够的信息实现利用率尽量大的数据匿名 http://news.cntv.cn/2015/06/01/ARTI1433163987908952.shtml
15.个人信息安全保护措施论文(共13篇)大数据没有内部和外部数据库的划分,所以用户的隐私数据可以放在资源池中被任何用户访问,这为hacker提供了便利的信息获取渠道,并且能够通过数据之间的关联性挖掘出更加隐私的数据,拓宽了个人信息窃取的渠道,给个人信息安全造成极大的隐患。 篇2:个人信息安全保护措施论文https://www.hrrsj.com/wendang/lunwen/666365.html
16.数据安全挖掘技术包括哪些帆软数字化转型知识库数据安全挖掘技术包括数据加密、访问控制、数据屏蔽、隐私保护、多方安全计算、数据伪装、风险评估和监控。其中,数据加密是核心技术之一,详细描述如下:数据加密是将原始数据通过某种算法转换成不可读的密文,只有拥有解密密钥的人才能恢复数据。这种技术可以有效防止数据在传输和存储过程中被非法访问或窃取。通常使用的加密算法https://www.fanruan.com/blog/article/600319/
17.魏晓东大数据技术应用下医疗行为中个人信息保护的困境与解决四、大数据技术下医疗行为中个人信息保护的困境解决 我国个人信息保护法采取的规范形式与民法典人格权编中个人信息保护的规范形式是不同的,个人信息保护法采取了“事前同意”式的财产性规范模式,该法提出的个人信息权益概念,从解释论角度,也更像财产权。个人信息保护宗旨应是保护隐私权,个人信息保护法的财产性规范模式https://www.jfdaily.com/sgh/detail?id=1044300
18.[隐私政策]为了保证服务体验、处理服务纠纷,您在订单履行过程中拨打或者接听开启号码保护(隐私号)的电话时,您与商家、骑手间的通话信息可能会被录音。有关上述信息的收集和使用规则如下,或参见订单页面中的提示内容。 (1)当您与商家、骑手出现服务纠纷或发生违法违规行为时,平台可依据法律法规或相关规则/协议调取并使用录音信息作https://rules-center.meituan.com/rules-detail/137?commonType=7
19.有关保护个人信息安全论文(精选9篇)关键词:大数据;个人信息安全;数据匿名保护技术;数据水印保护技术;数据溯源技术 大数据为社会的发展、商业的预测、科学的进步提供了有效的数据支持,是数据服务的基础,大数据中关于个人信息的数据越来越多,不仅包含了个人的基础信息还包含了各种关联性的信息,从大数据环境中分析搜索资料,已经成为个人信息窃取的主要渠道。2https://www.ruiwen.com/lunwen/1047507.html
20.有人说科技公司是吃数据饭的与他们讨论数据隐私的保护是33.有人说,科技公司是吃数据饭的,与他们讨论数据隐私的保护是___。通俗地说,数据权利保护就是把缺乏监管的数据关进"笼子",把"笼子"的钥匙还给用户,这需要民意、技术、立法机构多方___。 A求全责备 竞争 B与虎谋皮 博弈 C缘木求鱼切磋 D水中捞月https://www.12tiku.com/newtiku/9999/8861562.html
21.大数据技术原理与应用期末复习知识点全总结(林子雨版3.数据处理与分析层面 功能:利用分布或并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据 4.数据安全和隐私保护层面 功能:在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人https://developer.aliyun.com/article/1418435