大模型时代公共数据分类分级治理

以大语言模型为代表的新型人工智能技术取得重要突破,为经济社会发展带来机遇的同时,也产生了数据安全和隐私、侵害个人信息权益等问题。近日,国家网信办等七部委印发了《生成式人工智能服务管理暂行办法》,首次提出对生成式人工智能服务实行包容审慎和分类分级监管,明确了训练数据处理活动和数据标注等要求,规定了生成式人工智能服务规范。该办法亦提出推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。进入大模型时代,公共数据安全将面临极大的风险和挑战,生成式人工智能发展既要加强高质量公共数据有效供给,也要加强对公共数据的安全保护,推动公共数据分类分级和合规使用,防范人工智能服务风险。

大模型时代的数据安全风险新变化

近年来,我国陆续出台了一系列法律法规,包括《网络安全法》《数据安全法》《个人信息保护法》,明确坚持数据分类分级的安全保护制度,保护个人信息,坚持保障数据安全与促进数据安全开放并重利用。应该看到,生成式人工智能训练过程中涉及多源数据融合应用。研究表明,公共数据资源占全社会数据资源总量的80%左右,公共数据安全和隐私将是大模型使用和研发过程中一个极为重要的问题。大模型时代的数据安全风险正在面临新的变化。

第一,从文本数据到多模态数据,数据分类分级难度增大。尽管OpenAI并未公开GPT-4语言模型数据量,但从公开数据来看,GPT-3语言模型由1750亿个参数训练而成,由此迭代而来的GPT-4语言模型显然需要更庞大的数据量作为支撑。大模型加速多模态发展,数据类型从文本拓展到图片、音频、视频。高质量、大规模、多样性的数据需求对数据分类分级的效率、成本提出了挑战。

第二,从静态保护到数据全生命周期,数据安全环境日益复杂。传统数据安全以静态保护数据实体为主,大模型需要依赖海量数据进行训练和学习,数据由静止转向流动,数据安全场景发生了变化。数据安全不仅要保护数据实体,还要以数据分类分级为基础,对生成式人工智能从训练到投入使用的全生命周期的个人信息处理和数据保护作出规范。比如,数据收集阶段通过网络爬虫抓取、直接向个人信息主体收集、进行数据交易等方式均涉及大量的合规风险点,数据预处理阶段对所收集数据进行清洗、标准化、标注与特征提取等步骤可能涉及演绎侵权。

第三,从单一主体到多元主体,数据安全管控形势严峻。生成式人工智能的模型开发涉及多个步骤,包括数据采集、数据标注、数据清洗、模型训练、模型优化等。鉴于模型开发涉及大量的数据处理活动,其中各环节通常不会由同一主体执行,而是由行业内不同主体分工协作、共同完成。比如,企业通常以外包的方式将数据标注任务通过其自有的平台分包给从业的公司或个人,因此管理难度增大,对履行合规义务提出了更大的挑战。过长的模型开发链路以及多主体间的数据处理导致数据安全风险责任不清,追踪溯源更加困难。

推动公共数据分类分级治理的路径选择

公共数据分类分级治理是一项复杂的系统工程,必须完整、准确、全面贯彻党中央决策部署,梳理数据在采集、预训练、结果输出等全生命周期过程中面临的安全风险,以分类分级为关键抓手,建构大模型时代的公共数据分类分级治理体系。

第三,在技术上创新智能分类分级方法。建设公共训练数据资源平台,聚焦金融、医疗、交通、空间等建设公共数据专区,提供安全、可信的数据清洗、加工环境,打造高质量的人工智能训练数据集和中文语料数据。利用自然语言处理、卷积神经网络等技术对公共数据进行智能识别,对数据编目识别模型进行快速分级,用实例数据识别模型对分级模型进行深度识别,动态扫描数据资产,从而实现智能化自动化公共数据分类分级。根据分词结果、词性属性以及不同的数据责任主体,探索利用多方安全计算、区块链等新技术构建与之匹配的公共数据集开放共享机制,在确保数据安全可控的前提下,实现公共数据可信流通。

(作者系之江实验室智能社会治理研究中心高级工程专员;之江实验室智能社会治理研究中心正高级工程师、信息技术部主任)

THE END
1.大模型將為軟體領域帶來哪些影響?2024年《政府工作報告》首次提出“人工智能+”戰略行動,旨在推動人工智能賦能千行百業。以大模型為代表的新一代人工智能技術成為軟體領域智能化轉型的核心驅動力,大模型為傳統軟體注入新智力,為軟體及其形態帶來新能力新變革,同時大模型也為提升軟體研發生産力和加速創新帶來新思路,並推動軟體産業結構性變化。 http://big5.news.cn/gate/big5/www.xinhuanet.com/tech/20241217/fd747ba0332d4a209f0f8069b35365b1/c.html
2.垂直大模型:赋能垂直行业发展的AI技术同时,互联网和移动设备的普及带来了大数据的积累,为AI模型训练提供了丰富的数据资源,增强了模型的准确性和泛化能力。数据标注和清洗技术的进步进一步确保了用于训练的数据质量和一致性,为构建更可靠的AI模型提供了基础。(二)市场:AI技术应用突破的重要动力 市场需求的高质量标准正强烈刺激着人工智能(AI)技术的https://baijiahao.baidu.com/s?id=1814786485950095085&wfr=spider&for=pc
3.国内AI大模型产业飞速发展!新一代人工智能发展年度报告(2023伴随人工智能技术的加速演进,AI大模型已成为全球科技竞争的新高地、未来产业的新赛道、经济发展的新引擎,发展潜力大、应用前景广。近年来,我国高度重视人工智能的发展,将其上升为国家战略,出台一系列扶持政策和规划,为 AI 大模型产业发展创造了良好的环境。 https://blog.csdn.net/2401_85782938/article/details/142170775
4.人工智能技术创新情况如何?问答集锦为加速构建人工智能高质量数据集,面向大模型的新一代数据工程成为核心技术手段。大模型的数据工程涵盖训练https://www.vzkoo.com/question/1733983264116436
5.2023年人工智能10大趋势,揭示AI大模型的“喜”与“忧”4.美国成为顶级人工智能模型的主要来源国。 2023 年,61 个著名的人工智能模型源自美国的机构,超过欧盟的 21 个和中国的 15 个。 美国也仍然是人工智能投资的首选之地。2023 年,美国在人工智能领域的私人投资总额为 672 亿美元,是中国的近 9 倍。 然而,中国依然是美国最大的竞争对手,中国的机器人安装量居世界https://www.xakpw.com/single/31824
6.一文盘点2023人工智能进展,不止大模型而已不过对于AI的“另半边天”计算机视觉而言,在2023年,这个领域也有许多不可忽视的新进展。 计算机视觉怎么样了? 今年大家都在重点关注大语言模型,但实际上,计算机视觉领域也取得了不少进展,从计算机视觉顶会CVPR 2023中就可以窥见一斑。 今年CVPR 2023共接收了2359篇论文,大多数研究都集中于以下4个主题,Sebastian Raschhttps://zhuanlan.zhihu.com/p/667500521
7.AI年度总结与展望:超大规模预训练模型爆发,自动驾驶迎商业化前夜AphaFold2成功预测98%蛋白质结构,预训练大模型迎来大爆发,自动驾驶迈入商业化试点探索新阶段,元宇宙概念东风劲吹,首个关于AI伦理的全球协议通过,商汤科技摘得“AI 第一股”(在2022年) 前沿技术突破令人欣喜,落地应用“润物细无声”般深入各行业,业界也开始正视人工智能的问题和挑战。https://www.tmtpost.com/5974823.html
8.人工智能领域有什么新进展?人工智能领域有什么新进展? 随着人工智能的不断发展,它正在改变着我们的生活。在流感大流行之前和现在的新常态中,人工智能仍然是科技行业的一个关键趋势。随着时间的推移,它正在接触到更广泛的受众,科学家、工程师和企业家们正从人工智能及其分支、物联网和机器学习中获益。https://baidu-mip.xianjichina.com/special/detail_487427.html
9.AI大模型加速迭代产业链公司获机构重点布局始于去年的AI(人工智能)大模型浪潮热度再次升温。农历春节期间,AI领域利好不断,以Open AI为首的诸多国内外互联网龙头公司均迎来AI大模型技术的新进展。多家机构及业内人士称,看好未来AIGC(人工智能生成内容)产业发展前景以及算力市场的增长空间,产业链内多家公司已获得机构重点关注及提前布局。 http://www.xinhuanet.com/20240219/e4bc9e4c27c645d28d39b484cf92e979/c.html
10.明日主题前瞻国内首个!人形机器人R合肥在人形机器人领域的科研平台建设迎来新进展 【主题详情】 国内首个!人形机器人R-DDPRM模型正式发布 据媒体报道,中国首个基于视觉扩散架构的人形机器人任务生成式R-DDPRM模型正式发布,该模型由坐落于成都科创生态岛的成都人形机器人创新中心研发。其创新之处在于能够让人形机器人跨越多个约束进行泛化,创造真正的人形https://wap.eastmoney.com/a/202406263114733975.html
11.基因智能诊疗领域取得新进展近日,中国科学院深圳先进技术研究院医工所医学人工智能研究中心李志成研究员团队在肿瘤影像-基因智能诊疗领域取得新进展。团队利用肿瘤影像、基因等多组学数据,建立了生物医学可解释的人工智能精准诊疗模型,并在多中心数据集上对影像-基因映射关系进行了可重复性验证研究。最新研究成果以Biological pathways underlying prognostihttps://www.siat.ac.cn/kyjz2016/202109/t20210923_6213442.html