政府数据开放中个人信息保护的范式转变
张涛
(清华大学法学院助理研究员)
[关键词]:政府数据开放;个人信息保护;基于过程的方法;匿名化
一、问题的提出
随着“数据”成为第五类生产要素,数据开放共享对于数字经济发展和数字社会建设至关重要。政府部门维护着大量数据,这些数据已经成为一种宝贵的资源,可以被从个人到企业甚至其他政府机构的各种实体所利用。开放数据是释放政府数据价值的重要方法,它意味着任何人都可以从任何渠道获取以公开形式存在,并且满足一些特定条件的政府数据。事实证明,政府数据开放不仅具有经济价值,如促进产业转型、助推大众创业等,而且还具有社会价值和政治价值,如提升公众生活品质、增强政府透明度、优化公共决策水平等。政府数据开放的重要性也获得了我国有关政策文件和立法的肯认,正逐渐向法制化方向发展。2015年8月,国务院印发的《促进大数据发展行动纲要》将“加快政府数据开放共享,推动资源整合,提升治理能力”确立为促进大数据发展的“主要任务”;2020年3月,中共中央、国务院印发的《关于构建更加完善的要素市场化配置体制机制的意见》将“推进政府数据开放共享”作为“加快培育数据要素市场”重要举措。贵州、浙江、上海等地通过地方性法规、地方政府规章的形式对政府数据开放共享予以专门规范,如《贵州省政府数据共享开放条例》《上海市公共数据开放暂行办法》等。
二、政府数据开放中个人信息保护面临的风险
从广义上看,政府数据开放是一个动态的系统过程,而非静态的单一行为。在数据科学中,学者们用“数据生命周期”理论来描述数据从“产生”到“解释”、从原始比特转化为终端用户价值的过程,并且强调在生命周期的每个阶段都需要考虑数据隐私和数据伦理。为了能够对政府数据开放中个人信息保护面临的风险有一个较为准确的把握,我们有必要以数据生命周期理论为指引对政府数据开放过程进行阶段性解构,并具体分析每个阶段可能存在的风险。
(一)政府数据开放过程的阶段性解释
在数据科学中,一般认为,“数据生命周期”概念的目标是“提供一种结构来组织与项目或者组织内的数据管理有关的任务和活动”。这个概念被具体化为各种数据生命周期模型,涵盖了数据从生产到归档(或者删除)的整个生命周期,并将整个过程视为同一过程的下一次迭代,使其形成一个循环。这样一个概念对于政府数据开放而言至关重要,因为它“提供了一个结构来考虑数据记录在整个生命周期中需要执行的诸多操作”。
事实上,数据的不同用途可能对应不同的生命周期。例如,数据可能只是为了保存记录而被归档,也可能被用于一次性的法律决策,还有可能在决策支持系统中被持续处理。当我们在开发一个特定的数据生命周期模型时,面临着在通用性和复杂性之间进行权衡:数据生命周期模型越复杂,它就越能描述简单个案,但在描述其他大数据使用案例时却可能缺乏通用性。为了在通用性与复杂性之间取得平衡,以现有的研究成果为基础,本文采用的政府数据开放生命周期模型主要有两个目标:一是模型足够简单,以概括其他法律领域中许多大数据用例的共同特征;二是模型足够具体,以捕获政府数据开放过程中有意义的、独特的“阶段”。在这个数据生命周期模型中,主要分为5个不同的阶段:数据收集、数据转换、数据存储、数据公开和数据使用,下文将分别对这5个阶段进行简单描述,同时分析可能存在的个人信息保护风险。
(二)数据收集阶段侵害个人信息权益
政府数据开放生命周期的第一个阶段始于数据收集。本文在广义上使用“收集”一词,包括接受、提取或者获取数据。数据无处不在,正以不易察觉又显而易见的方式嵌入“我们日常生活的结构”中,而技术正在改变数据产生、收集、维护和利用的方式。在大数据时代,政府数据的收集主要呈以下特点:(1)政府数据收集的主体越来越多元化。除了传统负责交通运输、环境保护、治安管理、教育卫生、文化旅游等业务的行政机关在履行职责的过程中会收集各种数据外,代行政府管理职能的组织在履行职责的过程中也会采集各类数据。(2)政府数据收集的类型越来越多样化。除了个人信息以外,环境数据、气象数据、税务数据、交通数据等也在政府数据收集的范围之内。(3)政府数据收集的方式越来越隐蔽和便捷。在传统的行政管理或者政务服务中,行政机关往往通过线下访问以纸质文件等形式来采集数据。随着数字政府建设的不断推进,很多行政任务由线下转为线上办理,行政机关可以借助移动应用程序、生物识别设备等快速、无接触地采集数据。(4)政府数据收集的途径更加多元。行政机关除了可以通过在履行法定职责时直接收集数据外,还可能从第三方数据中介组织或者其他政府部门收集数据。
大数据技术虽然给政府数据收集带来了诸多革命性变革,但也存在违反《个人信息保护法》的风险,主要体现在以下几个方面:
1.过度收集个人信息。《个人信息保护法》第34条规定,国家机关为履行法定职责收集个人信息,不得超出履行法定职责所必需的范围和限度。实践中,一些政府部门在收集个人信息时,往往采取“应采尽采、应归尽归”的方法,超越职责和权限收集个人信息。2020年12月,APP违法违规收集使用个人信息治理工作组发布了35款存在个人信息收集使用问题的APP,其中,安徽省数据资源管理局负责运营的“皖事通”存在“未明示收集用户详细地址、支付宝账号、社保账号等个人信息的目的、方式和范围”。
2.未履行告知义务收集个人信息。《个人信息保护法》第35条规定,国家机关为履行法定职责处理个人信息,应当履行告知义务。在APP违法违规收集使用个人信息治理工作组发布的35款存在个人信息收集使用问题的APP中,由湖北省人民政府主办、湖北省楚天云有限公司运营的“鄂汇办”存在“未明示收集的人脸特征等个人信息的目的、方式和范围,且收集时未同步告知用户其目的”。
3.未经同意收集个人信息。根据《个人信息保护法》第13条的规定,国家机关不需取得个人同意而处理个人信息的条件是“为履行法定职责或者法定义务所必需”,这意味着若收集的个人信息并非履行法定职责所必需,则仍然需要取得个人同意。在前面提到的“皖事通”和“鄂汇办”都存在未经同意收集个人信息的问题,如“鄂汇办”在“用户明确表示不同意打开位置权限后,仍频繁征求用户同意,干扰用户正常使用”。
(三)数据转换阶段侵害个人信息权益
与数据收集相比,数据转换虽然并不直接与数据主体打交道,但也可能因为一些主观或客观因素的影响,侵害个人信息权益,其中最主要的风险是可能违反准确性义务(原则)。从国内外个人信息保护立法的现状与趋势来看,准确性都被视为一项重要的原则或者义务。欧盟《通用数据保护条例》第5条第1款第(d)项规定,个人数据必须准确、及时、保持更新。新加坡《个人数据保护法》第23条规定,机构应当作出合理努力以确保由机构或者代表机构收集的个人数据是准确且完整的。我国《个人信息保护法》第8条规定:“处理个人信息应当保证个人信息的质量,避免因个人信息不准确、不完整对个人权益造成不利影响。”在实践中,大部分与数据打交道的人都知道,利用数据转化歪曲事实是有可能的。达莱尔·哈夫的经典之作《统计数字会撒谎》描述了数据可以被歪曲的事实,同时创造一个事实的虚假表象,方法主要包括主观的数据选择、范围的操控、部分数据点遗漏,这些方法直到今天还在使用。2021年5月,江苏南通一位市民在查询个人征信时发现,其征信报告“工作单位”一栏被写上了“专业做×十年”,该事件引发社会公众对征信机构公信力的质疑,其主要原因是征信机构在处理个人信息时未履行准确性义务。
(四)数据存储阶段侵害个人信息权益
数据存储是指记录和保存数字信息,如应用程序、网络协议、文档、媒体、地址簿、用户偏好等背后的比特和字节,用于未来的操作。数据存储是大数据的核心组成部分,也是政府数据开放生命周期中的重要阶段。在某种程度上,数据的创造以及大数据概念的诞生,正是计算机的发展、数字数据取代模拟数据的进步,以及处理和存储数据的速率提高等因素的结果。在大数据技术发展的早期,数据存储的成本十分高昂,通常以模拟数据的方式进行代替,如缩微拍摄、摄影以及纸媒等。随着技术的进步,计算环境解决了存储模拟数据方面的诸多难题,目前,常见的数据存储类型包括软件定义存储、云存储、网络附加存储、对象存储、文件存储、块存储等。数据存储技术的发展与广泛运用,也对政府数据存储产生了深远影响,使得计算环境中的政府数据具有以下特征:第一,数据可以得到完整存储;第二,数据变得易于复制;第三,数据有高度的可访问性;第四,较之物理存储,数据存储的成本显著降低。
尽管政府数据存储为后续的数据公开、使用奠定了基础,但仍然可能对个人信息权益造成侵害,主要体现在以下几个方面。
(五)数据公开阶段侵害个人信息权益
在政府数据公开阶段,也存在侵害个人信息权益的风险,主要体现在以下几个方面。
1.敏感个人信息被过度披露。从国内外个人信息保护立法内容来看,“识别”都是个人信息的核心要素。在信息隐私监管中,个人可识别信息(PersonallyIdentifiableInformation,简称PII)是核心概念之一,隐私法的范围通常取决于是否涉及PII,适用法律背后的基本假设是,如果不涉及PII,就不可能有隐私损害。我国《个人信息保护法》专门对“敏感个人信息的处理规则”予以规定,其背后的主要考量是敏感个人信息一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害。在实践中,政府数据公开阶段经常出现过度披露敏感个人信息的现象,侵犯个人信息权益。2021年4月,最高人民检察院发公布了11件个人信息保护公益诉讼典型案例,其中,在“江西省某县人民检察院督促规范政府信息公开行政公益诉讼案”中,江西省某县农业农村局在官方网站公布农机购置补贴情况的政府信息时,有1044人的身份证号码、家庭住址、银行账户、手机号码等个人信息被完整公开。
(六)数据使用阶段侵害个人信息权益
政府数据开放的重要目的之一是通过政府数据的“再利用”进而激发政府数据所蕴含的各种价值。不过,一旦政府数据从正式的数据库系统中释放后,可以有效应用的一系列控制措施就可能发生变化,个人信息保护风险也会随之发生演变。具体而言,主要体现在以下几个方面:
2.匿名化数据被“去匿名化”,导致个人信息被“再识别”。为了避免政府数据公开给个人隐私造成的侵害,很多政府数据开放倡议或者立法都要求政府部门在公布包含个人信息在内的政府数据时,应当进行匿名化处理或者去标识化处理。尽管匿名化处理使个人信息的“再识别”变得异常困难,但却并非完全不可再识别,原因主要有两个方面。一方面,匿名化技术本身可能存在缺陷,导致个人信息的匿名化并不彻底,出现“伪匿名化数据”;另一方面,尽管匿名化技术在不断改进,但是,去匿名化技术亦在不断发展,曾经或现在成功实现匿名化的个人信息,也有可能因为去匿名化技术的使用而再次被识别。
三、以“基于过程的方法”应对个人信息保护风险
(一)结果保护范式下“技术性匿名化”之不足
尽管匿名化技术在政府数据开放共享中确实为保护个人信息提供了重要支撑,但理论界与实务界围绕匿名化展开的论战也一直在持续。不看好匿名化的学者认为,长期以来,我们一直认为匿名化能够“拯救我们”,然而,科学研究已经表明,隐藏在匿名数据中的个人能够被“再识别”或者“去匿名化”,因此,监管机构必须迅速而有力地应对这种颠覆性的技术变革,以恢复法律的平衡,保护我们免受迫在眉睫的重大伤害。支持匿名化的学者认为,一方面,匿名化的批判者对“数据公地”的社会效用存在误解,并大大低估了其价值,如果政策制定者终止或者限制公开发布非识别数据集,社会将遭受新的数据“公地悲剧”;另一方面,匿名化的批判者错误地解释了计算机科学文献,过度强调了匿名化的无用性,事实上“去匿名化”或者“再识别”风险主要是理论上的,数据共享所带来的现实风险可以忽略不计。
本文认为,上述观点均有一定的合理性,但却是相反的两个极端,并且几乎都将分析完全限制在个人信息在“公开”这个时点是否处于“匿名”状态,低估了政府数据开放中个人信息保护风险及其应对机制的复杂性,导致“匿名化技术”必须承担平衡个人信息保护和使用的全部“重量”,造成功能过载。总体而言,本文认为,以“技术性匿名化”为中心的结果保护范式难以有效应对政府数据开放生命周期不同阶段的个人信息保护风险,也难以担负平衡个人信息保护与使用的大任,具体理由如下。
1.匿名化与数据再利用之间存在冲突,无法实现预期的平衡目标。如前所述,匿名化已经成为世界主要国家个人信息保护法治用以解决平衡个人信息保护与使用问题的重要方法。这种方法在理论上运行良好,但前提是来自数据的输出潜力仍然保持其效用,而实际情况却并非如此。这是因为通过使用自动化算法软件寻找模式(即链接数据点之间的关系),可以使从分析数据集中获得的价值或者知识最大化。然而,匿名化的目的是解除这种数据点之间的联系,因为它们与可以收集到的关于特定个人及其身份的信息有关。这便引发了一个问题:政府部门如何确保对自己拥有的数据进行有效的匿名化,同时保留这些数据的效用,以便将来可能向第三方披露,并由第三方进一步处理
需要说明的是,本文对以技术性匿名化为核心手段的结果保护范式提出批评意见,并非是对匿名化技术的全盘否定,而是不赞同政府部门在政府数据开放过程中将保护个人信息的重任全部放置在匿名化技术上,忽视了在其他阶段采用不同的个人信息保护手段,以降低个人信息保护不足的风险。
(二)以风险预防原则确立个人信息保护理念
1.在政府数据开放过程中应当考虑不同的风险因素。风险管理从本质上讲是一种平衡测试,它需要考虑诸多因素,包括个人的基本权益、拟议的处理将损害个人的可能性、发生损害的严重程度、可用来降低风险的措施、数据控制者的权益等。因此,在建构风险管理框架时,政府部门也需要确定不同的风险因素,以确定在公开政府数据时需要采取何种保护措施。参照美国国家标准与技术研究院(NationalInstituteofstandardsandTechnology,NIST)发布的《个人信息去标识化》(De-IdentificationofPersonalInformation)报告,本文认为,在政府数据开放过程中至少应当考虑以下风险因素:一是政府数据的数量,信息量会影响重新识别和敏感属性披露的风险;二是政府数据的敏感性,生物识别信息、行动轨迹信息、银行账户信息等是比较敏感的,也更有可能成为攻击目标;三是政府数据的接收者,至少包括内部接收者、受信任的接收者和普通公众三种不同类型的数据接收者,并且风险呈递增趋势;四是政府数据的用途,数据的不同用途可能会给攻击者带来不同的再识别动机;五是数据的公开方式,不同的公开方式引发的风险不同,受控制的公开比无条件开放的风险低。
2.在政府数据开放过程中应区分不同的风险等级。与其他领域的风险管理相似,个人信息保护中的风险管理也应当根据不同的风险因素、管理目标,确定不同的风险等级。欧盟《通用数据保护条例》采用了基于风险的数据保护方法,鼓励控制个人数据的组织实施与其数据处理活动的风险水平相适应的保护措施:首先是高风险,《通用数据保护条例》对从事“高风险”活动的数据控制者提出了更高的要求。具体而言,在从事这种活动之前,数据控制者可能被要求咨询数据保护机构并进行详细的隐私影响评估;在发生数据泄露的情况下,数据控制者可能被要求通知可能受影响的个人。其次是风险,对于没有被标记为“高风险”的活动,数据控制者仍然必须采取与该活动的风险水平相适应的措施。例如,数据控制者被要求“确保与风险相适应的数据安全水平”,并实施基于风险的措施以遵守一般法律义务。最后是低风险,如果对数据主体的风险很小,数据控制者可以免于向数据保护机构通报数据泄露的要求。尽管《通用数据保护条例》没有提及数据控制者应当如何评估和量化风险,但是这种基于风险等级采取不同控制措施的思路仍然值得我国政府部门在建构政府数据开放的风险管理框架时予以借鉴。
(三)以“基于过程的方法”重塑个人信息保护模式
“基于过程的方法”(process-basedapproach)是以数据生命周期为基础,全面、动态地考察政府数据开放整个过程的一种保护模式,它为我们观察政府数据开放提供了一种全新的视角,改变了传统结果保护范式的认知与适用局限。从逻辑与事实的关联性来看,“基于过程的方法”与政府数据开放中个人信息保护之间具有内在关联和外在契合。
1.“基于过程的方法”与政府数据开放生命周期之间存在内在契合。如前所述,政府数据开放本身就是一个动态的过程,遵循了数据生命周期的一般规律,可以分为收集、转换、存储、公开和使用等5个阶段,这与“基于过程的方法”本身所主张的全面、动态的观察视角相吻合。
2.“基于过程的方法”与政府数据开放的风险管理相契合。“基于风险的方法”已经逐渐成为个人信息保护领域的重要方法,风险管理也成为关键工具,而风险管理本身就包括风险识别、风险量度、风险评估、风险应对等阶段,这与“基于过程的方法”存在外在关联。
3.“基于过程的方法”与当前个人信息保护的程序主义进路相吻合。从国内外个人信息保护立法的现状来看,无论是信息主体享有的权利,还是信息处理者应当承担的义务,以及最终的权利救济机制,都出现了大量的程序性规则。个人信息保护已经成为一个不断识别、预防、降低风险的过程,即使信息处理者没有实际的违规行为,只要其未能采取行业内普遍认可的措施来充分降低风险,其就有可能承担法律责任,这与“基于过程的方法”的核心理念是相吻合的。
4.“基于过程的方法”与数据安全全流程管理制度是相吻合的。我国《数据安全法》第27条规定,开展数据处理应当“建立健全全流程数据安全管理制度”,这意味着数据安全管理应当融入整个数据生命周期,这与“基于过程的方法”的基本主张是一致的。
四、完善政府数据开放中基于过程的个人信息保护机制
前文阐述了政府数据开放生命周期不同阶段可能存在的个人信息保护风险,并对以技术性匿名化为核心手段的结果保护范式的不足进行了分析,在此基础上,本文提出以“基于过程的方法”重塑政府数据开放中个人信息保护模式,并且就该保护模式的基本内容与核心措施进行了初步分析。为了进一步加强政府数据开放中的个人信息保护,有针对性地就不同阶段的个人信息保护风险采取措施,还需要对程序、技术、教育、经济、法律等手段的范围作进一步的说明,以及对它们在政府数据开放生命周期不同阶段如何发挥作用进行阐述。为此,本文以本·格林(BenGreen)等人在《开放数据隐私》报告中提出的“在数据生命周期的每个阶段考虑隐私问题”为基础,参照迈卡·奥特曼(MicahAltman)等人提出的分析框架,结合我国《个人信息保护法》《数据安全法》和《信息安全技术个人信息安全规范》(GB/T35273—2020)的有关规定,尝试提出一个将不同的个人信息保护手段与政府数据开放生命周期不同阶段协调衔接的控制网络。
(一)数据收集阶段的个人信息保护手段
一旦个人信息被收集,它就有可能作为开放数据或者通过回应公共记录请求而被公开,因此,限制数据收集往往是限制未来披露的最佳方式。为了应对政府数据收集阶段可能存在的个人信息保护风险,政府部门可以采取如下手段。
1.确保收集个人信息的合法性。根据《个人信息保护法》第5条的规定,合法原则是个人信息保护的重要原则。政府部门在收集包含个人信息的数据时,应当依照法律、行政法规规定的权限与程序进行,不得通过其他非法手段和途径收集个人信息。
2.确保收集个人信息的最小必要。根据《个人信息保护法》第5条的规定,必要原则是个人信息保护的基本原则。该法第6条进一步明确“收集个人信息,应当限于实现处理目的的最小范围,不得过度收集个人信息”。该法第34条则规定:“国家机关为履行法定职责处理个人信息,应当依照法律、行政法规的权限、程序进行,不得超越履行法定职责所必需的范围和限度。”政府部门在收集个人信息时,所收集的个人信息类型应当与履行法定职责或者提供公共服务的业务功能直接关联。所谓直接关联,就是没有上述个人信息的参与,履行职责或提供服务的功能就无法实现。
4.完善个人信息的内部管理机制。政府数据开放共享是政府数据治理的重要内容。随着政府数据治理体系的不断完善,越来越多的政府部门开始任命专门的数据治理官员或者组建专门的数据治理机构,如政府首席数据官,为政府数据治理提供组织保障。我国《个人信息保护法》第52条规定,处理个人信息达到一定规模的个人信息处理者应当指定个人信息保护负责人。就政府部门而言,应当以建立和完善政府首席数据官制度为契机,强化政府首席数据官对政府部门处理个人信息的监督职责。
5.完善个人信息保护影响评估机制。在其他风险管理领域,风险评估是最为重要的工具之一,如环境保护影响评估。在隐私和个人信息保护领域,传统的隐私影响评估工具经常被作为平衡效用和隐私以及选择适当隐私保障措施的工具。如今,在隐私影响评估机制的基础上,个人信息保护影响评估机制成为个人信息保护的重要工具。尽管个人信息保护影响评估在不同的机构之间可能略有不同,但通常涉及个人信息的处理目的、处理方式是否合法、正当、必要,个人信息的预期用途和接收者,对个人权益的影响及安全风险,采取的保护措施是否合法有效等。
(二)数据转换阶段的个人信息保护手段
2.积极采取加密等技术手段,确保数据转换过程安全。在数据转换过程中,政府部门还应当积极采取一些先进的“隐私增强技术”或者“数据安全技术”,预防和减少数据转换阶段可能出现的信息泄露、篡改、丢失等风险,其中比较常见的便是采用加密技术,包括公钥加密和私钥加密。
3.保障信息主体的访问权和更正权,增强数据转换的透明度。为了确保数据安全,数据转换的具体过程一般具有一定的机密性,但是数据转换的方法及结果应当遵循透明度要求。政府部门应当通过适当的途径,将数据转换的方法和结果告知信息主体,保障信息主体能够有意义地行使访问权和更正权。
(三)数据存储阶段的个人信息保护手段
随着数字政府建设的不断向前推进,政府部门维护着众多的数据集,并且这些数据集通常分布在不同的部门或者机构,使得政府部门很难跟踪其众多的数据资源。如果没有对现有数据集的全面了解和掌控,政府部门就有可能做出错误的数据管理决策或者进行多余的数据收集、超期的数据保存。此外,未知的和未被充分监测、评估的数据集可能会带来风险,再加上人员流动和信息管理系统定期升级增加了评估旧数据集所涉隐私及个人信息风险的难度。为了有效应对政府数据存储阶段的个人信息保护风险,政府部门可以采取如下手段。
3.完善数据安全风险评估制度,及时监测存在的安全风险。《数据安全法》第29条规定“开展数据处理活动应当加强风险监测”;第30条规定:“重要数据的处理者应当按照规定对其数据处理活动定期开展风险评估”。拥有众多大型数据库的政府部门面临的数据安全风险并不天然地低于私营部门。因此,上述规定同样也适用于政府部门,其更应当积极完善数据安全风险评估制度,降低数据泄露风险。一般而言,数据安全风险评估通常包括所存储的数据类型与数量、可能存在的风险、可能采取的应对措施。
4.编制数据安全事件应急预案,完善数据泄露通知制度。尽管各种保护措施可以将数据安全风险降至最低,但是,数据泄露事件仍然无法避免。为此,《数据安全法》第23条规定:“国家建立数据安全应急处置机制”;《个人信息保护法》第51条规定,个人信息处理者应当“制定并组织实施个人信息安全事件应急预案”。政府部门应当借鉴其他领域的应急管理经验,充分听取数据安全领域的技术专家、法律学者的意见,制定本部门的数据安全事件应急预案。当发生大规模数据泄露事件时,政府部门应当按照《个人信息保护法》第57条的规定,应当“立即采取补救措施,并通知履行个人信息保护职责的部门和个人”,让其能够积极采取防护措施,避免数据泄露引发的次生伤害。
(四)数据公开阶段的个人信息保护手段
如何确定要公开的数据集是政府数据开放所面临的最常见的挑战之一,因为政府部门并不总是十分清楚哪些政府数据在公开后会带来隐私与个人信息风险,稍有不慎,就可能过度披露敏感信息。为了应对在政府数据公开阶段可能存在的个人信息保护风险,政府部门可以采取如下几种手段。
1.区分不同的公开方式,采用不同的政府数据访问机制。政府部门应当清楚地认识到,并非所有的数据集都适合以“开放数据”格式公开,如数据的敏感性和颗粒度很高时,以不可控的开放数据格式公开,被再识别的风险就会很高。因此,不同类型的政府数据、不同风险级别的数据集应当设置与其风险水平相适应的公开方式和数据访问机制。一般认为,在组织内部和组织之间共享和访问数据,可以采用的访问机制大致包括以下几类:一是限制性共享,政府部门可以根据预期的数据接收者类型及其相应的风险等级,来决定如何公开数据。二是管理性访问,政府部门可以确定到底是谁在访问数据集,同时保持对其传播效果的控制。三是互动方法,比较典型的是“差分隐私”(differentialprivacy),即在数据集中添加一定量的“噪音”或者只提供关于底层数据集的“统计结果”。四是混合方法(hybrid),即政府部门可以将一个包含有可能再识别的个人信息的数据库进行拆分,再融入前述三种方法。
2.广泛使用去标识化技术,降低政府数据的被再识别风险。从技术的角度看,尽管并不存在完美无瑕的去标识化技术,但不可否认的是各类去标识化技术仍然在个人信息保护中发挥着重要的作用。政府部门在准备要公开的政府数据时,应当广泛使用去标识化技术,既可以由人工执行,也可以通过自动化程序执行,或者两者兼备。一旦认定数据集已经完成去标识化后,应当手动审查或者以其他方式进行数据审计,以判定是否还有任何可识别信息,或者审查是否有可能通过与其他数据源的关联来恢复被删除的敏感属性。
(五)数据使用阶段的个人信息保护手段
一旦政府数据从数据库中公开进入使用者手中,前面几个阶段的保护手段就可能失去效用,再加上可能存在的数据滥用、数据聚合等风险,从而导致个人信息权益受到侵犯。为了应对政府数据使用阶段存在的个人信息保护风险,政府部门应当积极开发新的保护手段或者机制来消解“发布即遗忘模式”的弊端,比较常见的方法主要有以下两种。
1.通过信用监管强化对政府数据使用者的事前审查。尽管各国在制定政府数据开放政策时,都要求政府部门不应当对政府数据使用者设置歧视性条件,但这并不意味着政府数据使用者不需要满足任何条件或者达到一定要求。为了避免政府数据使用者在使用政府数据时产生新的隐私与个人信息保护风险,在实践中,政府部门可以要求政府数据使用者在数据存储、数据处理和数据安全保护能力等条件方面应当达到相应的信用等级。
2.通过数据使用协议强化对政府数据使用者的事后监管。为了应对政府数据滥用可能带来的隐私与个人信息保护风险,数据使用协议成为常见的保护手段。在数据使用协议中,政府部门可以就政府数据再使用的目的、用途等进行约定,如禁止重新识别信息或者联系个人,同时,要求政府数据使用者应当依法履行相应的数据保护职责,并接受政府部门的监督检查,承担相应的法律责任。