大模型时代公共数据分类分级治理|人工智能大模型新进展_在线博物馆

以大语言模型为代表的新型人工智能技术取得重要突破，为经济社会发展带来机遇的同时，也产生了数据安全和隐私、侵害个人信息权益等问题。近日，国家网信办等七部委印发了《生成式人工智能服务管理暂行办法》，首次提出对生成式人工智能服务实行包容审慎和分类分级监管，明确了训练数据处理活动和数据标注等要求，规定了生成式人工智能服务规范。该办法亦提出推动公共数据分类分级有序开放，扩展高质量的公共训练数据资源。进入大模型时代，公共数据安全将面临极大的风险和挑战，生成式人工智能发展既要加强高质量公共数据有效供给，也要加强对公共数据的安全保护，推动公共数据分类分级和合规使用，防范人工智能服务风险。

大模型时代的数据安全风险新变化

近年来，我国陆续出台了一系列法律法规，包括《网络安全法》《数据安全法》《个人信息保护法》，明确坚持数据分类分级的安全保护制度，保护个人信息，坚持保障数据安全与促进数据安全开放并重利用。应该看到，生成式人工智能训练过程中涉及多源数据融合应用。研究表明，公共数据资源占全社会数据资源总量的80%左右，公共数据安全和隐私将是大模型使用和研发过程中一个极为重要的问题。大模型时代的数据安全风险正在面临新的变化。

第一，从文本数据到多模态数据，数据分类分级难度增大。尽管OpenAI并未公开GPT-4语言模型数据量，但从公开数据来看，GPT-3语言模型由1750亿个参数训练而成，由此迭代而来的GPT-4语言模型显然需要更庞大的数据量作为支撑。大模型加速多模态发展，数据类型从文本拓展到图片、音频、视频。高质量、大规模、多样性的数据需求对数据分类分级的效率、成本提出了挑战。

第二，从静态保护到数据全生命周期，数据安全环境日益复杂。传统数据安全以静态保护数据实体为主，大模型需要依赖海量数据进行训练和学习，数据由静止转向流动，数据安全场景发生了变化。数据安全不仅要保护数据实体，还要以数据分类分级为基础，对生成式人工智能从训练到投入使用的全生命周期的个人信息处理和数据保护作出规范。比如，数据收集阶段通过网络爬虫抓取、直接向个人信息主体收集、进行数据交易等方式均涉及大量的合规风险点，数据预处理阶段对所收集数据进行清洗、标准化、标注与特征提取等步骤可能涉及演绎侵权。

第三，从单一主体到多元主体，数据安全管控形势严峻。生成式人工智能的模型开发涉及多个步骤，包括数据采集、数据标注、数据清洗、模型训练、模型优化等。鉴于模型开发涉及大量的数据处理活动，其中各环节通常不会由同一主体执行，而是由行业内不同主体分工协作、共同完成。比如，企业通常以外包的方式将数据标注任务通过其自有的平台分包给从业的公司或个人，因此管理难度增大，对履行合规义务提出了更大的挑战。过长的模型开发链路以及多主体间的数据处理导致数据安全风险责任不清，追踪溯源更加困难。

推动公共数据分类分级治理的路径选择

公共数据分类分级治理是一项复杂的系统工程，必须完整、准确、全面贯彻党中央决策部署，梳理数据在采集、预训练、结果输出等全生命周期过程中面临的安全风险，以分类分级为关键抓手，建构大模型时代的公共数据分类分级治理体系。

第三，在技术上创新智能分类分级方法。建设公共训练数据资源平台，聚焦金融、医疗、交通、空间等建设公共数据专区，提供安全、可信的数据清洗、加工环境，打造高质量的人工智能训练数据集和中文语料数据。利用自然语言处理、卷积神经网络等技术对公共数据进行智能识别，对数据编目识别模型进行快速分级，用实例数据识别模型对分级模型进行深度识别，动态扫描数据资产，从而实现智能化自动化公共数据分类分级。根据分词结果、词性属性以及不同的数据责任主体，探索利用多方安全计算、区块链等新技术构建与之匹配的公共数据集开放共享机制，在确保数据安全可控的前提下，实现公共数据可信流通。

（作者系之江实验室智能社会治理研究中心高级工程专员；之江实验室智能社会治理研究中心正高级工程师、信息技术部主任）

THE END

大模型时代公共数据分类分级治理

“金融行业大模型应用的新进展和新趋势”论坛成功召开

阿里AI驱动新进展：发布通义千问2.0和百炼平台，多业务场景试跑大模型

大势所趋？来看看人工智能（AI）在心房颤动预测中的新进展人工智能颤动预测监督式神经元AI心房模型特征

高瓴人工智能学院2023年十件大事

中国地球物理学会会讯第167期

国产大模型陆续开放人工智能赛道"百舸争流"

30款大模型即将亮相2023世界人工智能大会

深度解析：大模型与生成式AI的关联性及其在不同应用场景中的作用与影响

影响2024年的十大科技应用趋势

大模型时代公共数据分类分级治理

快科技资讯2024年01月08日Blog版资讯中心

中美将举行人工智能政府间对话首次会议OpenAI发布新旗舰模型GPT4o

新一代人工智能发展方向及技术框架

两万字解读：2024年版机器学习AI和数据（MAD）生态全景图谱