一文详解隐私计算「四大技术路线」

丰富的线上&线下活动,深入探索云世界

做任务,得社区积分和周边

最真实的开发者用云体验

让每位学生受益于普惠算力

让创作激发创新

资深技术专家手把手带教

遇见技术追梦人

技术交流,直击现场

海量开发者使用工具、手册,免费下载

极速、全面、稳定、安全的开源镜像

开发手册、白皮书、案例集等实战精华

为开发者定制的Chrome浏览器插件

在满足数据安全、隐私保护和监管合规的前提下,链接数据孤岛,实现多方协同释放数据要素价值,是当前大数据技术发展应用的一大难题,而隐私计算正是解决这一难题的技术方案。

隐私计算又称为隐私增强计算、隐私保护计算,是目前业界认可的、能在数据要素流通融合中有效保护数据隐私的信息技术。

随着各国隐私保护法规的陆续出台、隐私保护意识的觉醒,近年来欧美、中日韩等国家和地区加快了对隐私计算的研发和商用步伐,其中代表性的国外厂商有谷歌、微软、Intel、Inpher、Duality等。

隐私计算是一个快速发展的领域,涉及密码学、安全硬件、信息论、分布式计算等多个学科。目前公开的隐私计算技术资料和白皮书已经非常丰富,但是缺乏对各技术优缺点的深入分析和对比。本文将从性能、安全、隐私、功能、研发难度等多个角度分析对比各技术路线。

首先需要明确的是,隐私计算并非单一的技术,而是包含多种隐私保护技术/隐私增强技术,涉及密码学、安全硬件、信息论、分布式计算等多个学科。

隐私计算基于其实现隐私保护的原理可分为密码学、可信执行环境、信息混淆脱敏、分布式计算四类路线,其中的主要代表技术有多方安全计算、差分隐私、匿名化、联邦学习等。

这些技术在可支持计算、隐私保护维度、隐私保护强度、安全性、性能等方面有较大差异,分别适合不同的应用和场景。有时也需要结合使用两种或多种技术来满足应用需求。

隐私计算各技术路线对比

▌密码学路线

其代表技术是多方安全计算MPC(secureMulti-PartyComputation)。这一路线是在“密态”下进行数据的计算、检索等处理,这一过程中输入数据、中间结果处于密态不暴露,只输出最终结果。▌可信执行环境路线

其方法是通过可信的抗篡改的软硬件构建一个可信的、难以被外界窃听内部数据的安全环境,数据在该环境中由可信的程序进行处理。▌信息混淆脱敏路线

其主要代表技术是匿名化和差分隐私。其典型方法是通过加噪、删除、泛化等信息处理手段对数据处理以减少或去除其中的敏感信息后再输出。▌分布式计算路线

MPC是该路线中最具代表性的技术,它可以支持多方数据的各种计算,除了可以保护各方数据隐私,还可以实现结果管控:只让指定方获得计算结果或结果的一部分。

MPC的挑战和局限:

1)性能挑战

比如,对于大型的DNN/CNN模型的MPC推理耗时为分钟级。

2)安全挑战

虽然密码学给MPC的安全性提供了非常高的保障,但是由于MPC的性能挑战,不少MPC协议采用的安全模型是弱化的(相对于身份认证、密钥协商等密码协议)。

例如:安全模型假设无合谋(参与方之间不会合谋以窃取其他方数据)、不偏离协议(每个参与方都忠实执行规定的MPC协议)。若无合谋假设不成立,则数据会泄露;若不偏离协议假设不成立,不少MPC协议也存在数据泄露风险。

因此,在应用MPC产品时,需注意其安全模型是否达到业务的要求。除了使用强安全模型的MPC协议,一种解决办法是将MPC和TEE结合:各参与方将其MPC软件运行在其TEE中,通过TEE来保证不偏离协议和增大合谋攻击的难度。

3)功能挑战

可信执行环境(TEE)的方法是通过可信的抗篡改的软硬件构建一个可信的安全环境,数据在该环境中由可信的程序进行处理。该环境具备一定抵抗外界窃取数据、篡改数据、篡改程序的能力。目前较为成熟的可信执行环境方案有SGX、Trustzone等。

与MPC一样,TEE同样具备以下优点:支持任意计算逻辑、结果输出可控、数据用途用量控制、计算正确性校验。两者的差异源于实现机制和安全前提的不同,TEE依赖于特定软硬件的安全性,MPC依赖于密码算法的安全性。

由于避免了复杂的密码学计算和协议,TEE其性能远高于MPC,基于的TEE隐私计算产品研发也相较容易:可以将现有的机器学习、统计分析等软件迁移或适配到TEE下,实现隐私计算的机器学习、统计分析等。

TEE的局限性主要在于需要特定TEE硬件设备,而且需要依赖硬件产品的安全性(不存在安全漏洞,没留后门),硬件安全性的检测通常难以进行。增强硬件安全的可信度的方法有TEE硬件国产化和权威机构检测。

它的主要代表是匿名化和差分隐私,其方法是通过加噪、删除、泛化等信息处理手段对数据处理以减少或去除其中的敏感信息后再输出。

例如,医学主管单位将采集的个人数据/疫情数据匿名化和脱敏后公开发布,供广大医疗机构研究,供各机构和民众做好防疫工作。在这样的场景下,数据的合理用途非常广、用量非常大,MPC或TEE使用成本高、权限管控太严,限制了数据的流通和利用。而信息混淆脱敏路线具备低成本、高性能、实现简易的优势。

缺点是难平衡隐私保护和数据可用性的矛盾:混淆脱敏去除了部分信息(或降低了部分信息精度),而某些计算和分析可能需要使用这些信息(或需要使用高精度的信息)。在这种情况下,就还需要采用MPC或TEE。

信息混淆脱敏另一大用途是:作为辅助,结合其他隐私技术路线(如MPC、TEE)用于联合计算,减少可从结果中得到敏感信息。MPC、TEE可以保护输入数据、中间计算结果不泄露,但是如果最终计算结果包含敏感信息,则还需要采用信息混淆脱敏处理后再输出最终结果,或者对输入数据、中间结果应用信息混淆脱敏。

该路线的代表是联邦学习、分割学习及弱PPML(暴露中间计算结果的隐私保护机器学习PPML,联邦学习和分割学习为弱PPML特例)。

大多分布式计算任务不需要各节点间交互原始输入数据,只需交互本地基于原始数据计算的中间结果。相比较把各方数据汇聚在一起再计算的集中式计算方法,分布式计算大为减少了原始信息的泄露。但与MPC、TEE方式相比隐私保护弱,额外泄露了中间结果信息。

以联邦学习为例,它沿用了传统分布式机器学习的参数服务器-工作服务器架构。

联邦学习典型架构这一架构中,一个中心服务器作为参数服务器协调多个数据方的服务器(作为工作服务器)进行联合机器学习训练,各工作服务器基于本地样本数据计算出的梯度信息交给参数服务器进行汇聚,参数服务器将最新迭代的模型参数下放给各工作服务器。

与传统分布式机器学习的区别在于:每个worker/数据方是一个独立的实体,各自持有自己的训练样本(全体样本的子集),而不是所有worker和样本属于同一机构,这一数据分布方式被称为数据水平分割(对应分割学习场景中常见的数据垂直分割)。这一架构缺乏对计算结果的管控,即任一参与方都能得到模型参数。

联邦学习另一个弱点是计算中间信息(梯度)的泄露,多项研究表明该泄露有暴露原始数据敏感信息的风险。为了减少梯度信息泄露,联邦学习一般采用MPC或者差分隐私技术进行各方梯度的汇聚。

需要注意的是:两方联邦学习无法采用MPC减少信息泄露,因为任一方从两方梯度汇聚结果就能推出对方梯度,采用MPC进行梯度安全汇聚需要更多数据方才有意义。

【注】联邦学习的定义和范畴问题。联邦学习没有业内一致认可的严格定义。除了上述典型架构外,一些厂商和科研成果机构还提出了新的联邦学习架构,包括用于数据垂直分割场景的架构。然而这些架构是否属于联邦学习在业内特别是学术界没有共识,不少架构其实属于分割学习。为了产品推广方便和市场教育简化,业内不少厂商和用户所指的联邦学习范畴其实还覆盖了分割学习、其他弱PPML甚至是MPC机器学习。为了便于对比分析各技术,本文所指的联邦学习为典型的得到共识的架构。

每种隐私计算路线各有优缺点,在不少场景中可以结合使用以扬长避短。

MPC、TEE双引擎。从计算类型丰富度出发,必然需要采用MPC或TEE技术路线以支持各种计算。MPC、TEE两者在安全和性能上各有权衡。理想的隐私计算产品应支持MPC、TEE双引擎,让用户能根据具体场景灵活选择引擎使用。

分布式计算作为补充。在部分建模场合(模型无需管控、中间信息泄露可接受)可以采用联邦学习、分割学习、弱PPML作为补充,以提升性能;且联邦学习/分割学习采用MPC减少中间信息泄露。

信息脱敏混淆作为辅助。其中,最有代表性的是将差分隐私用于基于MPC/TEE的安全统计分析结果的保护,防止差分攻击。

THE END
1.数据挖掘师在市场中的地位与未来的展望随着大数据技术的飞速发展,数据挖掘这一领域也迎来了前所未有的爆炸性增长。作为一名专业的数据分析人员,数据挖掘师不仅需要具备深厚的数学和统计学知识,还要有强大的编程能力以及对业务模式的深刻理解。在这个信息爆炸时代,能够从海量数据中提取有价值信息的人才是最宝贵的。 https://www.f3kg3td6j.cn/jun-lei-zi-xun/496259.html
2.探索数据世界的未知领域,特征生成挑战文化艺术摘要:在数据世界中,我们不断探寻未知的领域,试图解锁其中的奥秘。有时在生成特征的过程中,我们可能会遇到无法生成特定特征的挑战。这并不意味着探索的结束,反而是探索旅程中的一部分。面对未知,我们需要保持开放的心态,持续挖掘数据的潜力,以期发现新的见解和洞见。尽管面临挑战,但我们仍要勇往直前,不断突破自我,探https://m.hkstv.net/post/7768.html
3.大数据挖掘价值洞察研究大数据挖掘价值-洞察研究 下载积分: 1388 内容提示: 大数据挖掘价值 第一部分 大数据挖掘概述 2 第二部分 大数据挖掘技术 4 第三部分 大数据挖掘应用场景 https://www.doc88.com/p-69619764087796.html
4.机器学习面临的三个关键数据挑战数据质量、稀疏性和完整性直接影响最终模型的准确性,并且是当今机器学习面临的一些比较大的挑战。拥有清晰数据定义,政策并探索行业特定数据标准的组织将在短期和长期项目中受益。 如果您还没有,那么您的组织应该首先定义自己的数据收集策略,元数据格式,然后应用标准的安全技术。数据质量和稀疏性齐头并进。下一步,设置元https://www.528045.com/article/7f423917e5.html
5.科学网—人工智能赋能科学与工程前沿——知识与数据融合之径人类的认知过程是从数据、信息、知识到智慧螺旋上升的,数据驱动的人工智能在这段时间已明显发现短板,数据和物理规律、数据与模型、物理信息神经网络等等旨在知识和数据双驱动的人工智能被提上日程。 但知识与数据如何双驱动属于探索的“前沿”。在数据集、特征工程、激活函数、网络结构(比如,约束条件,网络参数)、损失函https://blog.sciencenet.cn/home.php?mod=space&uid=32670&do=blog&id=1465224
6.机器学习:开启智能未来的钥匙腾讯云开发者社区机器学习作为人工智能的核心方法,通过分析数据中的隐藏规律,让计算机从中获取新的经验和知识,不断提升和改善自身性能,从而像人一样根据所学知识做出决策。 机器学习涉及概率论、统计学、微积分、代数学、算法复杂度理论等多门学科,是一门多领域交叉学科。其应用范围极为广泛,涵盖自然语言处理、图像识别、推荐系统、金融https://cloud.tencent.com/developer/article/2478495
7.数据挖掘的挑战与机遇:大数据时代的测试在大数据时代,数据挖掘技术已经成为企业和组织中最重要的一项工具,它可以帮助企业发现隐藏在海量数据中的价值,提高业务效率,提升竞争力。然而,数据挖掘技术也面临着许多挑战,如数据质量问题、算法复杂性问题、计算资源问题等。因此,在大数据时代,数据挖掘技术的发展和应用需要不断创新和挑战。 https://blog.csdn.net/universsky2015/article/details/137296733
8.数据挖掘有什么作用与意义帆软数字化转型知识库3、数据挖掘工具:常用的数据挖掘工具包括Weka、RapidMiner、KNIME、SAS、SPSS等。这些工具提供了丰富的功能,能够帮助用户进行数据预处理、建模、评估等工作。 4、大数据技术:随着数据量的增加,传统的数据挖掘技术和工具在处理大数据时面临挑战。为此,出现了Hadoop、Spark等大数据技术,这些技术能够处理海量数据,提高数据挖掘https://www.fanruan.com/blog/article/575539/
9.数据挖掘技术方法(精选十篇)数据挖掘技术方法 篇4 关键词:大数据,审计,数据分析 0引 言 审计是保障国家经济社会健康运行的“免疫系统”,在数据信息爆炸的今天,大数据的浪潮促使着审计思维模式的变革。面对已经到来的大数据时代和由此带来的数据量、数据类型、数据处理方式的转变,意味着在大数据环境下进行审计数据分析将面临更大的技术挑战。2012年https://www.360wenmi.com/f/cnkeyg31vygx.html
10.人工智能跨领域应用探索:机遇与挑战并存机器人自然语言处理人工智随着AI技术的迅速发展,伦理和社会影响的问题也日益突出,renshangzhibo.net,。AI的应用涉及到隐私、安全和公平等多个方面。例如,在医疗和金融领域,数据隐私是一个重要问题。如何保护用户的个人信息,同时又能利用数据进行有效的AI分析,这是一个亟待解决的挑战,zhiboduniang.net,。 https://www.163.com/dy/article/JJAQ3NKH055670JB.html
11.数据挖掘与预测分析:趋势效益挑战预测分析工具的学习曲线、复杂性和成本是主要的挑战。另外,如果你正致力于部署先进的预测分析工具,你需要聘请专业的高薪人才来处理数据的准备和清理,建立和评价预测模型,并将模型和他们的结果集成到你的BI、CRM和其他应用环境中。如果你决定通过数据库内分析把预测分析倡议整合到数据仓库中,你需要将处理这些功能的人组成http://www.searchdatabase.com.cn/7-19620/
12.大数据技术的道德意义与伦理挑战TheMoralMeaningandEthicalChallenges这就是在各个层次上由大数据技术开拓的数据挖掘的“文明指引”。一旦“文明指引”通过云计算被揭示出来且用于指导个体行动者的行动,道德价值和社会法则就会“具形化”于大数据技术展现的物质形式和文明形态之中。从这一意义上看,如果说数据挖掘技术带来了数据驱动型社会的降临,那么它的驱动力结构体现的文明指引功能,就http://www.sass.cn/109002/41985.aspx
13.数据挖掘VS机器学习,你了解多少?如今,获取数据比以往任何时候都更容易,但从数据中生成见解和信息正变得更具挑战性。企业经常发现自己处于一种情况,他们拥有的数据远远超过他们所知道的数据,这可能会适得其反,导致无所作为。 数据挖掘和机器学习是企业将这些庞大的数据库转化为有用信息的两种主要方法。 https://www.fromgeek.com/telecom/509859.html
14.干货▏面向大数据的时空数据挖掘面向大数据的时空数据挖掘的挑战 尽管时空数据挖掘研究在近几年引起了人们的广泛关注并得到快速发展,但与传统数据挖掘相比,时空数据挖掘研究还远未成熟。随着时空数据采集效率的不断提高,时空数据积累越来越大,时空数据挖掘也面临诸多挑战。 理论框架 相较于传统的数据挖掘技术,时空数据挖掘研究还远未成熟。对于结构复杂且https://czj.guiyang.gov.cn/new_site/zwgk_5908373/zszc_5908415/202205/t20220531_74514473.html
15.什么是数据挖掘?分析如何揭示洞察力51CTO博客数据挖掘的风险与挑战 数据挖掘伴随着风险和挑战,与任何涉及使用潜在敏感信息或个人身份信息的技术一样,安全性和隐私是最大的问题。 在基本层面上,挖掘的数据需要完整、准确、可靠;毕竟,你用它来做重大的商业决策,经常与公众、监管机构、投资者和商业伙伴进行互动。现代的数据形式也需要新的技术,例如将各种分布式计算https://blog.51cto.com/u_15127621/2766923
16.全面解析BMS电池管理系统的定义功能及其在现代科技中的关键作用然而,随着电池技术的复杂化和应用场景的多样化,如何高效、安全地管理电池成为了一个亟待解决的挑战。电池管理系统(BMS,Battery Management System)应运而生,作为电池技术发展的重要组成部分。BMS不仅提升了电池的性能和寿命,还确保了使用过程中的安全性。本文将深入探讨BMS的定义、功能及其在现代科技中的关键作用,旨在https://www.sekorm.com/news/529057385.html
17.中国大数据行业面临的五大挑战以及应对策略挑战二:数据挖掘分析模型建立 步入大数据时代,人们纷纷在谈论大数据,似乎这已经演化为新的潮流趋势。数据比以往任何时候都更加根植于我们生活中的每个角落。我们试图用数据去解决问题、改善福利,并且促成新的经济繁荣。人们纷纷流露出去大数据的高期待以及对大数据分析技术的格外看好。然而,关于大数据分析,人们鼓吹其神奇价值https://news.yaozh.com/archive/5653.html
18.每周文娱观察2017.2.17数据显示,产业整体规模已突破5000亿元,而泛娱乐内容的消费用户已达10亿人次。巨大的市场空间吸引了大批金融资本进入泛娱乐产业。去年文化产业基金新增241只,募集规模达264.5亿元。 30、支付宝关闭付款二维码转账:扫码付款限线下 支付宝宣布,2017年2月20日起,支付宝的付款码功能将只能用于线下付款,不再具备线上转账付款http://www.leshanvc.com/cygc/23764.html
19.物联网数据挖掘研究论文物联网中的数据挖掘是物联网技术中较为重要的一个环节,其价值体现在为物联网应用数据大量增长下提供强力补充。当前基于海量数据的增加,物联网数据挖掘正面临着一定的挑战,而云计算的出现为其提供了一个全新的发展方向。该文以云计算、物联网、数据挖掘技术特征与相互联系为基础,分析基于云计算平台的物联网数据https://www.unjs.com/lunwen/f/20190123020542_1865768.html
20.推进智慧医院建设助力医院高质量发展新闻动态智慧医院建设也面临着一些挑战: 1、各科室需求不一致,模块、功能选择难 智慧医院建设所需的技术创新容易,但智慧医院相关模块的建立困难。智慧医院建设所需的技术支撑是一个容易解决的问题,难点在于,各个科室或者部门提出的需求不一致,如何权衡协调各个科室、部门之间的需求,建立高效适宜的智慧化功能、模块,并协调各相关https://www.dzrmyy.cn/trend/13779.html
21.数据治理:面临的挑战与应对策略,数据挖掘,BI,商务智能,数据分析数据治理:面临的挑战与应对策略 在业务IT化的过程中,企业通过第三方厂商、自研等方式构建多种数据系统,采用多种系统中的数据化治理,是实现数据效能、数据驱动业务的关键步骤。 许多大数据公司在过去一段时间都得到了较好的发展,究其原因是因为恰逢专注于业务流的信息化建设正在向数据化转型。http://km.ciozj.com/Detail.Aspx?AI=98488
22.数据挖掘论文摘要:文章首先对数据挖掘技术及其具体功能进行简要分析,在此基础上对科研管理中数据挖掘技术的应用进行论述。期望通过本文的研究能够对科研管理水平的进一步提升有所帮助。 关键词:科研管理;数据挖掘;技术应用 1数据挖掘技术及其具体功能分析 所谓的数据挖掘具体是指通过相关的算法在大量的数据当中对隐藏的、有利用价值的https://www.ruiwen.com/lunwen/5421411.html
23.数据挖掘过程中可能遇到的挑战和难题有哪些?数据挖掘过程中可能遇到的挑战和难题包括数据质量、数据量大、数据的复杂性、模型选择、解释和应用等方面。管理者可以通过加强数据质量管理、配备更强大的硬件和软件、学习新的数据挖掘技术和方法、建立跨学科的团队、鼓励创新和实践等措施来应对这些挑战。https://www.mbalib.com/ask/question-4287fe162960fd7c73a171c2f700c56f.html