生成式AI正在偷走你的数据ai隐私保护

无需高额的价格、无需耗时的定妆,只需要9.9元和20张个人照片,就可以利用AI生成媲美“海马体”“天真蓝”的精美照片。

凭借低廉的价格和较好的生成效果,“妙鸭相机”一经推出便迅速出圈。

不过,这次出圈的不止是产品,还有当时近似“霸王条款”的用户协议。

“这样操作,其实是国内无数软件、APP的默认选项,但是正大光明地说出来,可以说‘有恃无恐’了。”某互联网数据信息安全企业负责人向「甲子光年」表示。

长期专注于数据合规领域,曾为多家境内外上市公司、知名企业提供数据合规服务的北京植德律师事务所合伙人王艺告诉「甲子光年」:“目前有较多因为‘AI换脸’软件产生的侵权案件,利用AI技术侵犯个人隐私数据的案例数量也在逐步上升。”

用户处于被动位置,难以保障自身的数据安全,隐私保护的无力感正在从互联网时期蔓延至AI时代。但显而易见的是,在AI时代,企业对数据的争夺更加激烈,用户数据隐私安全面临的挑战也更加严峻。

大模型训练不仅离不开丰富的数据集,也愈加需要高质量的数据;由于涉及到人与AI的交互,用户的个人信息权利难以响应,技术开发者、服务提供者也面临着潜在的合规风险。

当老生常谈的问题遇上新的技术变革,大模型时代又将打响怎样的数据安全保卫战?

在创新与安全的平衡中,法律规范、企业自治、数据安全技术正在给出它们的答案。

01大模型时代,数据安全的新挑战

数据,是AI发展的养料。人们在轻而易举获取数据的同时,对数据安全的讨论也此起彼伏。

相较于互联网对用户上网习惯、消费记录等信息的覆盖,人脸识别、智能设备、AI换脸等AI应用的出现,对用户个人信息的采集范围大幅扩大,包括人脸、指纹、声纹、虹膜、心跳、基因等强个人属性的生物特征信息。

2017年,中国第一例利用AI侵犯公民个人信息案犯罪在浙江绍兴破获,其中超10亿条公民个人信息被非法获取。

360集团首席安全官杜跃进此前接受「甲子光年」采访时就曾表示:“人工智能和大数据的安全必须放在一起看。”

生成式AI、大模型的出现,对数据提出了前所未有的要求,也随之带来了更加突出的数据安全问题。

在大模型的训练数据量上,以OpenAI的GPT模型为例:GPT-1预训练数据量仅为5GB;到了GPT-2,数据量已经增加至40GB;而GPT-3的数据量已经直接飞升至45TB(相当于GPT-2数据量的1152倍)。

市场逐渐凝成这样的共识:得数据者得天下,数据是大模型竞争的关键。

在今年6月,OpenAI同样因为未经允许使用个人隐私数据收到了一份长达157页的诉讼书。

除了模型的训练阶段,在模型的实际应用阶段中,个人隐私泄露的风险持续存在。

顶象安全专家告诉「甲子光年」,生成式AI不仅仅泄露人的隐私和秘密,甚至会让人变得透明。“就跟《三体》中的智子一样,提问者说的话会被记录下来,生产生活产生的数据信息会成为AIGC训练的素材。”

早在2020年,人们就发现OpenAI的GPT-2会透露训练数据中的个人信息。随后的调查发现,语言模型越大,隐私信息泄露的概率也越高。

今年3月,多名ChatGPT用户在自己的历史对话中看到了他人的对话记录,包括用户姓名、电子邮件地址、付款地址、信用卡号后四位以及信用卡有效期。

这意味着,在大模型时代,不仅个人信息泄露的范围扩大了,个人信息的采集过程也变得更为隐秘,难以辨认,而且一旦侵权,就是对大量用户造成的侵权。那么,泄露之后的个人信息去向了哪里?究竟会对用户造成什么影响?

北京植德律师事务所合伙人王艺告诉了「甲子光年」答案。他表示,生成式AI造成的个人信息泄露,轻则可能侵害他人的肖像权,为造谣者实施便利,重则可能被犯罪分子利用,实施犯罪。

顶象的安全专家也表示,在所有互联网产品或软件都有可能被植入AI元素的当下,AI滥用带来的社会问题会越来越多。“造假会更简单,眼见不一定为实,电信诈骗、网络诈骗越来越复杂。”

2023年5月,安全技术公司迈克菲对来自七个国家的7054人进行了调查,发现有四分之一的成年人经历过某种形式的AI语音诈骗(10%发生在自己身上,15%发生在他们认识的人身上),10%的受害者因此造成经济损失。

「甲子光年」从慧科数据库、公开报道中发现,今年以来全国各地发现利用AI技术窃取个人隐私进行诈骗的案例至少有14例。

其中,大多数案例通过视频聊天与受害者进行联系,逼真的人脸和声音容易让人们放下警惕,冒充朋友、亲人也迅速让受害者交与信任。诈骗金额多在万元以上,最高被诈骗金额甚至高达430万元。

除此之外,通过“AI换脸”造成肖像权被侵犯的案件也屡见不鲜。王艺表示,虽然此类案件的数量在逐步上升,但由于隐蔽性强,且是微型侵权,很多案例都没有走上法庭,即使进行了法院审判,得到的赔偿金额也并不高。

可以说,普通人在面对利用AI技术进行的个人隐私侵权面前,其实并没有太多的办法。

02严苛的立法态度不是监管的唯一解法

技术发展与法律监管总是并驾齐驱的。如果说数据安全已经成为人工智能时代的必答题,法律与监管便是解答的关键。

今年4月,斯坦福大学以人为本人工智能研究所(StanfordHAI)发布了《2023年人工智能指数报告》(ArtificialIntelligenceIndexReport2023)报告。通过对127个国家的立法记录调研,报告显示,包含“人工智能”法案通过的数量,从2016年的1个增长到2022年的37个。在对81个国家涉及人工智能的议会记录进行分析后,研究人员发现全球立法程序中提及人工智能的次数自2016年以来增加了近6.5倍。

区别于信息剽窃、隐私侵犯等“老生常谈”的数据安全问题,由于涉及到人与AI的交互,大模型时代数据安全面临着更为迫切的难题——个人信息权利响应难以落实。

如何精准识别交互过程中收集的个人信息?如何划清用户服务与模型训练的使用界限?面对全新的数据安全、个人信息安全、网络安全难题,大模型时代亟须新的监管办法出台。

2023年7月13日,中国网信办发布《生成式人工智能服务管理暂行办法》(下文简称《暂行办法》,2023年8月15日施行),明确规定了生成式人工智能服务提供者的服务规范。

除了数据安全外,对技术的监管不可避免地涉及“发展与监管”之间的矛盾。北京植德律师事务所合伙人王艺告诉「甲子光年」:“如何处理二者之间的矛盾,是不同国家的战略选择。”

相较于4月11日发布的《生成式人工智能服务管理办法(征求意见稿)》(下文简称《征求意见稿》),《暂行办法》做出了较大改动。

《暂行办法》删除了对研发主体的监管要求,将《征求意见稿》中将强制性的“生成内容应当真实准确”修改为非强制性的“提高生成内容的准确性和可靠性”,并补充要求提升生成式人工智能服务的透明度。

“监管部门对《征求意见稿》的很多条款进行了删除或者松绑。从立法前后稿子的变化,可以看出我国还是以发展为先的。”王艺说道。

在监管和发展平衡中,此次条例的修改不无道理。因为立法监管并非是一蹴而就的,过于严苛的立法态度可能会成为技术发展的掣肘。在欧洲,部分技术从业者就该问题表达了担忧。

ChatGPT推出后,欧洲国家对OpenAI的监管逐步加紧。意大利宣布禁用ChatGPT后,出于数据保护的考虑,德国、法国、西班牙等国家也表示正在考虑对AI聊天机器人采取更严格的监管。

6月14日,欧盟通过的《人工智能法案》最新草案,也贯彻了以往严苛的立法态度。法案对于“基础模型”或经过大量数据训练的强大AI系统,明确规定了透明度和风险评估要求,包括在AI技术投入日常使用之前进行风险评估等。

对风险的猜想是否高于实际?欧盟严苛的立法态度招致了欧洲风投公司和科技公司的许多不满。

6月30日,欧洲各地的主要科技公司创始人、首席执行官、风险投资家等150家企业高管共同签署了一封致欧盟委员会的公开信,警告欧盟法律草案中对人工智能的过度监管。

“想要将生成式人工智能的监管纳入法律并以严格的合规逻辑进行,这种方法是官僚主义的,因为它无法有效地实现其目的。在我们对真正的风险、商业模式或生成人工智能的应用知之甚少的情况下,欧洲法律应该仅限于以基于风险的方法阐述广泛的原则。”公开信中指出,该立法草案将危及欧洲的竞争力和技术主权,而无法有效解决我们现在和未来可能要面临的挑战。

无独有偶,日本一名官员此前也表示,日本更倾向于采用比欧盟更宽松的规则来管理AI,因为日本希望利用该技术促进经济增长,并使其成为先进芯片的领导者。

“一项新技术从研发到进入市场,再到融入社会生产、生活,产生风险是难以避免的,不能因为风险而放弃新技术的研发和应用。理想目标应是把风险最小化,把技术获利最大化。”顶象的安全专家告诉「甲子光年」。

“不发展是最大的不安全。”严苛的立法态度不是监管政策的唯一解法,企业和立法者也不应该是矛盾双方,而是谋求数据安全与技术发展的同路人。

以美国为例,谷歌、微软、OpenAI等科技巨头也在主动构建安全屏障。7月21日,谷歌、微软、OpenAI、Meta在内的7家AI公司参与白宫峰会,并就AI技术和研发的安全、透明、风险等问题作出“八大承诺”。7月26日,微软、谷歌、OpenAI、Anthropic四家AI科技巨头宣布成立行业组织——“前沿模型论坛”(FrontierModelForum),来确保前沿AI开发的安全和负责。

面对尚未确定的技术生态,技术开发者、服务提供者都面临着潜在的合规风险。只有明确了合法获取的路径和规章底线,大模型训练者、服务提供者才能放下戒备,在更大的空间施展拳脚。

站在技术变革的十字路口,如何平衡好数据安全与技术发展的需求,制定出更为系统、更具针对性的监管细则,也是对各国立法者的新考验。

03在创新与安全之间,如何平衡?

“监管,如果不向前迈进,就会面临人工智能被滥用的风险;如果仓促行事,就有导致行业陷入困境的危机。”

7月25日,Anthropic联合创始人兼CEODarioAmodei、加州大学伯克利分校教授StuartRussell和蒙特利尔大学教授YoshuaBengio出席美国参议院司法委员会举行的人工智能听证会。在会议上,他们一致达成这样的观点:AI需要监管,但过犹不及。

面对大模型对隐私数据的挑战,在创新与安全的博弈之间,我们还有哪些解法?

隐私计算成为近些年数据隐私保护的技术最优解。与传统的加密技术相比,隐私计算可以在不泄露原始数据的前提下对数据进行分析计算,实现数据的共享、互通、计算和建模。

让数据变得“可用不可见”,也就规避了个人数据泄露或不当使用的风险。这项技术目前已经在医疗、金融、政府等对数据高度敏感的领域内相继落地。

在大模型时代,隐私计算也同样适用。中国信通院云计算与大数据研究所副主任闫树在7月的两次活动上都表达了这样的观点,隐私计算可以满足大模型预测阶段的隐私保护需求。

具体来说,隐私计算的不同路线,包括可信执行环境(TEE)、多方安全计算(MPC)等都可以与大模型进行结合,“比如在云端部署TEE,用户在推理时将输入数据加密传输至云端,在其内部解密然后进行推理;还有在模型推理阶段使用多方安全计算来提升隐私保护能力”。但值得注意的是,隐私计算也不可避免会对模型训练和推理的性能造成影响。

除了加强数据安全保护之外,还有一种可以从数据源头上解决隐私安全问题的方法——合成数据。

合成数据指通过AI技术和算法模型,基于真实数据样本生成虚拟数据,因此也不存在用户的个人隐私信息。

“合成数据解决了三个挑战——质量、数量和隐私。”合成数据平台SynthesisAI的创始人兼CEOYasharBehzadi接受科技媒体《VentureBeat》采访时表示:“通过使用合成数据,公司可以明确定义所需要的训练数据集,可以在最大程度上减少数据偏差并确保包容性,不会侵犯用户的隐私。”

OpenAI联合创始人兼CEOSamAltman同样也看好合成数据。

根据英国《金融时报》报道,5月在伦敦举行的一次活动上,SamAltman被问及是否担心监管部门对ChatGPT潜在隐私侵犯的调查,他并没有特别在意,而是认为“非常有信心所有的数据很快会成为合成数据”。

在合成数据方面,微软在今年更是动作频频。5月,微软在论文《TinyStories:HowSmallCanLanguageModelsBeandStillSpeakCoherentEnglish》中描述了一个由GPT-4生成的短篇小说合成数据集TinyStories,其中只包含了四岁儿童可以理解的单词,用它来训练简单的大语言模型,也能够生成出流畅且语法正确的故事。

6月,微软在发布的论文《TextbooksAreAllYouNeed》中论证,AI可以使用合成的Python代码进行训练,并且这些代码在编程任务上表现得相当不错。

每一次技术产生变革的时期,期待和恐惧总是如影随形,发展和监管的呼声向来不相上下。

目前大模型的发展还在早期,应用层的爆发尚未实现,但AI不会停下脚步,如何把控前行的方向,如何平衡安全与创新,或许是AI发展历程中持续伴随的命题。

THE END
1.数据挖掘的数据安全与隐私数据隐私是指个人信息在收集、存储、处理和传输过程中的保护。数据隐私涉及到个人信息的收集、使用、传播和存储等各个环节,旨在保护个人的隐私权益。数据隐私的主要要素包括法律法规、技术手段、组织管理等。 在数据挖掘中,数据隐私问题主要表现为以下几个方面: https://blog.csdn.net/universsky2015/article/details/137314095
2.隐私保护机器学习:保护敏感数据的技术电子创新网Imgtec社区安全多方计算(Secure Multi-Party Computation, SMC)是一种加密技术,使得多个参与方可以共同计算某个函数的结果,而无需直接透露各自的输入数据。这种技术对于保护隐私尤为重要,特别是在那些需要数据共享与合作但又对数据隐私有高度要求的场景中。 例如,在金融、医疗或政府机构等领域,组织间常常需要合作处理和分析数据以https://imgtec.eetrend.com/blog/2024/100585463.html
3.数据挖掘的隐私概念数据挖掘与隐私保护一、隐私保护 现在,互联网上隐私是一个非常严重的问题。 隐私保护的数据挖掘是一个方兴未艾的研究领域。 因为我们都要去获取数据,但是怎么样才能既保护数据的隐私又能获得我们需要的数据?我们不能用常规的调查问卷收数据,如何设计调查问卷是个有趣的问题。 https://blog.51cto.com/u_16213620/9256859
4.人工智能技术的发展与隐私安全随着人工智能技术的快速发展,ChatGPT等对话模型正日益成为我们日常生活中的一部分。然而,随着其广泛应用的增加,人工智能也面临着一系列伦理挑战。AI应用程序和技术的发展与传播将成为人类的双向道路:一方面,这会通过使用更隐含的心理和行为数据,不断带来个人隐私侵犯,心理操纵增加等问题;另一方面,消费者将获得更好品类和https://zhuanlan.zhihu.com/p/664398565
5.采用加密技术在数据挖掘过程中隐藏敏感数据的方法属于()。【答案】:D 基于数据加密的技术:采用加密技术在数据挖掘过程中隐藏敏感数据的方法。https://zhidao.baidu.com/question/1935117475430413067.html
6.大数据差分隐私保护解决方案所以若想成功解决数据挖掘中的隐私泄露问题,就是要在挖掘过程中选择合适的隐私保护技术,使其尽量避免隐私数据被挖掘者泄露的同时,又能够保证挖掘结果的准确性。 有关保护隐私的问题最早在20世纪70年代末被提出[2],此后众多学者陆续地研发出许多隐私保护的模型。在当前已有的隐私保护模型中,K-匿名[3]模型及在相同理论https://www.360docs.net/doc/c2bfbe09db38376baf1ffc4ffe4733687f21fcf4.html
7.浅谈数据挖掘中的个人信息保护浅谈数据挖掘中的个人信息保护 【摘要】数据挖掘是当今社会最为重要的发现工具,它在为人们揭示出数据中的隐藏规律并创造出财富的同时,也对各类数据有着大量的需求。随着互联网的出现和发展,对所需数据的收集、交换和发布的过程正变得越来越便利。然而,这些丰富的数据资源中也同时包含着大量的个人隐私。更令人担忧的是http://media-ethic.ccnu.edu.cn/info/1168/2097.htm
8.大数据隐私保护第9篇洞察研究大数据隐私保护-第9篇-洞察研究  下载积分: 1388 内容提示: 大数据隐私保护 第一部分 大数据隐私保护原则 2 第二部分 数据加密技术与应用 6 第三部分 异构数据隐私保护方法 https://www.doc88.com/p-69719764649174.html
9.科学网—[转载]教育大数据隐私保护机制与技术研究而在技术层面上,学者们更加关注隐私保护机制改进,Gursoy M E等人提出学习分析过程中的隐私保护机制,将匿名和差异隐私两种大数据隐私保护技术运用到教育领域,解决教育数据发布和挖掘中的隐私泄露问题;Askinadze A等人则针对教育领域内数据挖掘算法的透明度进行了优化,让学生可自由选择数据存储及与第三方共享时的信息内容,https://blog.sciencenet.cn/blog-3472670-1280768.html
10.大数据分析的关键技术有哪些大数据分析的关键技术包括以下5条:1、数据清洗与融合;2、大数据处理框架;3、大数据建模与分析;4、大数据可视化;5、大数据隐私保护。大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的数据处理技术。大数据价值的完整体现需要多种技术的协同。大数据关键https://www.linkflowtech.com/news/2065
11.同态加密技术及其在云计算隐私保护中的应用用户提供隐私安全保护已成为当前学界研究的一个热点.近年来, 隐私信息检索(private information retrieval)[1-3]、可搜索加密(searchable encryption)[4-8]、多方安全计算(secure multi-party computation)[9,10]技术大量地应用到了云中数据的隐私保护中, 隐私信息检索和可搜索加密技术使用户可以对加密数据进行检索获取https://jos.org.cn/html/2018/7/5354.htm
12.大数据系统隐私保护关键技术是什么?包括随机化,即对原始数据加入随机噪声,然后发布扰动后数据的方法;第二种是阻塞与凝聚,阻塞是指不发布某些特定数据的方法,凝聚是指原始数据记录分组存储统计信息的方法;第三类是差分隐私保护。 基于数据加密的技术,采用加密技术在数据挖掘过程隐藏敏感数据的方法,包括安全多方计算 SMC,即使两个或多个站点通过某种协议完成https://www.elecfans.com/d/2000987.html
13.去中心化的和隐私保护的密钥管理模型技术交流Pinkas[11]详细讨论了SMC和各种隐私保护数据挖掘技术。早期的RSA签名多方共享的例子是Santis等人提出的。 秘密门限共享和秘密分割是指将秘密分配到多个秘密份额中。这些股份随后由多个参与者公开。为了恢复秘密,必须从参与者那里取回预定数量的秘密份额。更正式地,给定参与者的有限集合P和参与者的子集的集合Γ,秘密门限方https://ac.nowcoder.com/discuss/1008170?type=1&order=3&page=0&channel=-1
14.大数据环境下的隐私保护技术新闻基于数据加密的技术采用加密技术在数据挖掘过程隐藏敏感数据的方法,包括安全多方计算 SMC,即使两个或多个站点通过某种协议完成计算后,每一方都只知道自己的输入数据和所有数据计算后的最终结果;还包括分布式匿名化,即保证站点数据隐私、收集足够的信息实现利用率尽量大的数据匿名 http://news.cntv.cn/2015/06/01/ARTI1433163987908952.shtml
15.个人信息安全保护措施论文(共13篇)大数据没有内部和外部数据库的划分,所以用户的隐私数据可以放在资源池中被任何用户访问,这为hacker提供了便利的信息获取渠道,并且能够通过数据之间的关联性挖掘出更加隐私的数据,拓宽了个人信息窃取的渠道,给个人信息安全造成极大的隐患。 篇2:个人信息安全保护措施论文https://www.hrrsj.com/wendang/lunwen/666365.html
16.数据安全挖掘技术包括哪些帆软数字化转型知识库数据安全挖掘技术包括数据加密、访问控制、数据屏蔽、隐私保护、多方安全计算、数据伪装、风险评估和监控。其中,数据加密是核心技术之一,详细描述如下:数据加密是将原始数据通过某种算法转换成不可读的密文,只有拥有解密密钥的人才能恢复数据。这种技术可以有效防止数据在传输和存储过程中被非法访问或窃取。通常使用的加密算法https://www.fanruan.com/blog/article/600319/
17.魏晓东大数据技术应用下医疗行为中个人信息保护的困境与解决四、大数据技术下医疗行为中个人信息保护的困境解决 我国个人信息保护法采取的规范形式与民法典人格权编中个人信息保护的规范形式是不同的,个人信息保护法采取了“事前同意”式的财产性规范模式,该法提出的个人信息权益概念,从解释论角度,也更像财产权。个人信息保护宗旨应是保护隐私权,个人信息保护法的财产性规范模式https://www.jfdaily.com/sgh/detail?id=1044300
18.[隐私政策]为了保证服务体验、处理服务纠纷,您在订单履行过程中拨打或者接听开启号码保护(隐私号)的电话时,您与商家、骑手间的通话信息可能会被录音。有关上述信息的收集和使用规则如下,或参见订单页面中的提示内容。 (1)当您与商家、骑手出现服务纠纷或发生违法违规行为时,平台可依据法律法规或相关规则/协议调取并使用录音信息作https://rules-center.meituan.com/rules-detail/137?commonType=7
19.有关保护个人信息安全论文(精选9篇)关键词:大数据;个人信息安全;数据匿名保护技术;数据水印保护技术;数据溯源技术 大数据为社会的发展、商业的预测、科学的进步提供了有效的数据支持,是数据服务的基础,大数据中关于个人信息的数据越来越多,不仅包含了个人的基础信息还包含了各种关联性的信息,从大数据环境中分析搜索资料,已经成为个人信息窃取的主要渠道。2https://www.ruiwen.com/lunwen/1047507.html
20.有人说科技公司是吃数据饭的与他们讨论数据隐私的保护是33.有人说,科技公司是吃数据饭的,与他们讨论数据隐私的保护是___。通俗地说,数据权利保护就是把缺乏监管的数据关进"笼子",把"笼子"的钥匙还给用户,这需要民意、技术、立法机构多方___。 A求全责备 竞争 B与虎谋皮 博弈 C缘木求鱼切磋 D水中捞月https://www.12tiku.com/newtiku/9999/8861562.html
21.大数据技术原理与应用期末复习知识点全总结(林子雨版3.数据处理与分析层面 功能:利用分布或并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据 4.数据安全和隐私保护层面 功能:在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人https://developer.aliyun.com/article/1418435