时建中:数据概念的解构与数据法律制度的构建

数据利益;数据权利;数据行为;数据法律制度;数据法学

目录

一、数据概念的澄清:构建数据法律制度的逻辑前提与基础

二、数据资源的特征及数据权利化

三、数据法律制度的构建

(一)信息技术对信息载体的革命性创造——信息数据化、传输数字化

记录信息的能力是原始社会和先进社会的分界线之一。信息被传播、知悉和运用,需要借助载体予以传输。信息的载体形式及传输方式,实质性地影响着信息的传输质效。在一定意义上,人类社会发展史就是一部技术推动信息载体及传输方式进步的历史。

纸张一经发明即成为人类社会最主要的信息载体,造纸术、印刷术以及以火车和铁路为代表的交通运输工具等诸多方面的进步带动着纸质图书、期刊、报纸等产业的发展和变革,推动着信息、知识的传播。但纸质信息的传播,受制于纸质信息载体的传输工具和方式、社会环境等诸多因素。以纸质信件为例,只有送达至收件人,信件信息才能被阅知。杜甫的诗句“烽火连三月,家书抵万金”,饱含着对家人的无限眷念,触动着历代游子心生共鸣。

(二)数据与数字的概念辨析

包括数字经济、数字政府、数字社会在内的数字中国建设中的“数字”,其本意是充分运用ICT技术,处理数据信息和资源,提高经济效率、优化经济结构,推动优化和再造政府治理流程和模式从而不断提高决策科学性和服务效率,完善社会治理机制并精准提供社会服务。

无论作为信息载体还是生产要素,“数据”都是利益载体,具有重要的法律意义。作为法律概念,数据还衍生出体系化的数据权利、数据行为、数据利益或者数据权益以及数据法律关系等一系列法律或者法学概念,构成一个完整的概念体系,支撑数据制度体系和数据法学体系。然而,“数字”是一个技术术语,对规则的需求首先或者主要是技术标准及标准化法。

(三)数据资源化:从信息载体到生产要素

正如上文所述,ICT技术的革命性成果就是创造、开发和运用电子数据这一新兴信息载体,并使之成为人类社会前所未有且取之不尽、用之不竭的新兴生产要素。党的十九届四中全会指出:“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制。”将数据作为新兴生产要素,已经成为我国的政策选择。

诗人泰戈尔写到:“天空不曾留下鸟的痕迹,但我已经飞过。”但如果没有相应的信息记录载体和记录能力,即使鸟儿飞过,又有什么证据证明呢?这样的冰冷分析,确实让诗句有点索然无味,然而,这的确表明,信息需要载体,没有载体就等同于没有信息。无论是《网络安全法》《数据安全法》抑或《个人信息保护法》以及《民法典》,均坚守了数据是信息载体这一科学认知,并将其内涵与外延法定化。作为信息载体,是数据的初始功能。被数据承载的信息,或许关于个人,或许关于企业,或许关于社会,或许关于国家。

2.从信息载体到生产要素:数据制度目标的多元与统一

因此,如前文所述,作为信息载体,维护数据安全是优先目标;作为生产要素,开发利用数据是优先目标。两个“优先目标”虽不一致,但必须统一起来,安全是发展的前提,发展是安全的保障。维护数据安全,有利于保障数据开发利用的有序和效率;数据的开发利用,不仅推动经济发展,而且倒逼技术(包括安全技术)进步,持续提升维护数据安全的能力和水平。因此,统筹发展与安全是数据制度建设的基本指导思想。

(四)数据资源市场化是数据要素化的必然要求和必然结果

数据要素化就是数据融入并赋能生产、分配、流通、消费各经济环节的过程和结果,推动经济效率提升、结构优化、转型升级和提质增效。数据要素化离不开数据处理行为,包括数据的收集、存储、使用、加工、传输、提供、公开等。每一种数据处理行为,还包含着许多具体处理活动。以数据加工为例,至少包括数据的标注、清洗、脱敏、脱密、聚合、分析等提升数据质量的多个环节。数据必须经过处理,才能高质量赋能经济发展和社会治理。提升数据质量的每个处理环节和行为,凝聚了数据处理行为主体的投入,寄托了数据处理主体的正当的、合理的利益期待,应予以保护。

数据要素化的必然结果就是数据资源市场化和数据处理行为产业化。数据资源市场化,就是指通过市场机制配置数据资源,提高数据资源配置效率和质量。数据资源市场化,涵盖各种数据的各种状态,例如,个人数据和非个人数据、结构化数据和非结构化数据,等等;数据处理行为的产业化,就是推动数据的收集、存储、使用、加工、传输、提供、公开以及删除等数据处理行为的产业化。数据资源市场化和数据处理行为产业化,需要数据法律制度予以规范和引导,以进一步提高数据质量、提高数据要素的赋能质效。

(一)数据资源的特征

作为一种新兴生产要素,数据资源的特征,决定了数据权利化的特殊性和复杂性。数据权利化必须与数据的特征相符,且能最大程度发挥数据的资源价值。

1.数据的非竞争性

2.可复制性

数字化时代,信息主要在网络环境基于数字技术并以电子形式生成和记载,亦即电子形式的数据越来越多。电子数据与有体物的一个重要区别,就是其可复制性。数据的可复制性,一方面有利于促进数据的开发利用,另一方面也加大了数据保护的难度。虽具可复制性,但是,电子数据不同于法律意义上的无形财产,与知识产权既有的客体亦不相同。

3.非排他性

数据的非排他性就是数据可以同时被众多主体控制、处理和利用,亦即数据被一个主体控制、处理和利用时,不妨碍其他主体同时控制、处理和利用该数据信息。数据的非竞争性、可复制性和非排他性,使数据具有公共物品的属性。通过技术、协议等手段排除限制其他主体使用数据,不仅降低数据资源的应然效率而且有可能违背公众的共同利益甚至公共利益。

(二)数据信息和数据资源的保护、开发与利用均离不开ICT技术

数据要素化的过程,就是数据的处理过程。数据要素赋能生产经营活动和数据处理均离不开ICT技术。未经ICT技术处理,数据至多止于信息载体,不具有生产要素属性和价值。任何数据处理行为和数据要素化的每一个环节,以及数据权益的保护和实现,都离不开ICT技术驱动下的数据接入(accesstodata)。因此,数据权利的配置必须尊重数据要素与ICT技术的不可分离的特征。

1.数据与移动通信技术

没有移动通信技术不断进步,特别是电信信号由模拟信号到数字信号的革命性创新,数据无法以数字编码和方式跨通信设备传输并被计算机处理,更遑论建设数字经济、数字政府和数字社会。基于大带宽、低时延、高速率的传输特性,5G融合应用已在工业、医疗、教育、交通等多个行业领域发挥赋能效应,覆盖国民经济40个大类。5G不仅带来更高速、优质的网络体验,也为数字经济发展修好桥、铺好路。实现人机物互联的网络基础设施,支撑数字经济、数字政府、数字社会的能力越来越强,数据呈现出爆炸式增长的态势。以数据流引领技术流、物质流、资金流、人才流,将深刻影响社会分工协作的组织模式,促进生产组织方式的集约和创新。只有基础电信业务发展和安全,才能奠定好网络与数据安全的底座。电信法对于构建网络综合治理体系具有重要作用,是解决网络和数据立法共性问题的重要基石,是支撑数字中国建设的基本法律,应当加快立法进程。

2.数据与大数据、云计算、区块链、物联网以及人工智能等数字技术

云计算是推动信息技术能力实现按需供给、促进信息技术和数据资源充分利用的全新业态,是信息化发展的重大变革和必然趋势。云计算对数据资源的集聚作用,可实现数据资源的融合共享,推动大数据挖掘、分析、应用和服务。实施“上云用数赋智”行动,推动数据赋能全产业链协同转型。在数字化时代,算力作为关键的生产力要素,既是国民经济发展的重要基础,也是科技竞争的新焦点,已成为推动数字化发展的核心支撑力和驱动力。数据是云计算的技术标的,云计算是数据的处理行为和过程。规范和引导云计算的运用,同样需要数据法律制度为前提。

物联网即“万物相连的互联网”,是互联网基础上的延伸和扩展,将各种信息传感设备与网络结合起来,以感知技术和网络通信技术为主要手段,实现人、机、物的泛在连接,提供信息感知、信息传输、信息处理等服务的基础设施。随着经济社会数字化转型和智能升级步伐加快,物联网已经成为新型基础设施的重要组成部分。通过射频识别、红外感应器、全球定位系统、激光扫描器等信息传感设备,将用户端延伸和扩展到了任何物品与物品之间,并与互联网相连接,进行信息交换和通信,以实现对物品的智能化识别、定位、跟踪、监控和管理。“万物互联”是以万物数据化为前提和过程的,数据法律制度无疑是物联网法治化的内核。

区块链作为一项新兴技术,具有不可篡改、匿名性等特性,具有增强安全性、更大的透明度、即时可追溯性、提高效率和速度、自动化等优势,在供应链和食物链、银行业和保险等金融行业、医疗保健、医药、智慧政府等行业和领域具有广泛的运用前景。区块链技术生成的数据结构本身具有安全质量保障。基于密码学、去中心化和共识原则,可确保对交易的信任。在大多数区块链或分布式账本技术(DLT)中,数据被结构化为块,每个块都包含一笔交易或一组交易。每个新块都以加密链的形式与之前的所有块相连,几乎不可能被篡改。区块内的所有交易都通过共识机制进行验证和商定,确保每笔交易的真实性和正确性。区块链技术通过成员参与分布式网络来实现去中心化。没有单点故障,单个用户无法更改交易记录。区块链是一种不依赖第三方,通过自身分布式节点进行网络数据的存储、验证、传递和交流的一种技术方案,因此,区块链技术的运用质效,很大程度上依赖数据法律制度的健全与完善。

经过60多年的演进,特别是在移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术以及经济社会发展强烈需求的共同驱动下,人工智能加速发展,呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征。大数据驱动知识学习、跨媒体协同处理、人机协同增强智能、群体集成智能、自主智能系统成为人工智能的发展重点,受脑科学研究成果启发的类脑智能蓄势待发,芯片化硬件化平台化趋势更加明显,人工智能发展进入新阶段。我国人工智能技术快速发展、数据和算力资源日益丰富、应用场景不断拓展,为开展人工智能场景创新奠定了坚实基础。加速积累的技术能力与海量的数据资源、巨大的应用需求、开放的市场环境有机结合,形成了我国人工智能发展的独特优势。人工智能需要数据来建立其智能,特别是机器学习。人工智能应用的数据越多、质量越高,其获得的结果就越准确。

3.数据与元宇宙

(三)数据与算法

目前,算法存在以下突出问题:一是算法透明度不够,犹如黑箱。二是算法歧视,表现为算法不公平、不正义。三是信息“茧房”,表现为一些资本裹挟算法,向民众推送“选定信息”,迫使民众接收“茧房化”信息。四是诱导沉迷,例如,内容推荐算法在用户偏好、行为等数据的训练和强化下,不断优化推送用户感兴趣的内容,锁定用户注意力,导致用户沉迷甚至成瘾。五是算法剥削,例如一些平台企业运用算法来监视、操控劳动者,致使劳动力市场逐底竞争,造成低保障或无保障的“零工经济”泛滥,损害劳动者权益。六是算法违法,例如,通过算法实施违法的数据处理行为。这些问题滋生于两大根源:一是价值层面,算法运用者的商业伦理和价值观需要端正;二是数据与算法的监管制度供给不够、不优、不力。

笔者认为,算法公平的实现,不能寄希望于算法的公开和算法的可解释。这是因为:第一,对于是否公开,缺失必要的标准;第二,一旦涉及到企业的商业秘密或者技术秘密,算法有限度的公开不足以解释算法歧视;第三,算法是动态优化的,对算法的理解和解释,不应要求普通大众具有相应的必备知识和技能。因此,对于算法的监管和治理,应当确立结果导向的思维和机制。申言之,算法是否导致了不公平或者歧视,首先是事实问题,而不是法律问题。如果算法歧视属实,责任主体就应纠正算法意图实现的目标以及实现目标的参数。至于采取何种程序以及如何纠正,是算法责任者的法定义务,纠正的结果则又是事实问题。因此,如果作为证据,用于对算法的公平性予以验证,算法的备案等机制或许有一定的意义。在治理算法的过程中,监管机构可以作出责令纠正算法的决定并对责任者纠正算法的效果予以监督;责任者拒不纠正或者纠正未达预期效果的,监管机构有权采取强制审计、第三方代为纠正(代履行)、行政处罚或者行政强制等措施。

1.政府数据、政务数据、公共数据与社会数据

加强数据治理和全生命周期质量管理,确保政务数据真实、准确、完整。建立健全数据质量管理机制,完善数据治理标准规范,制定数据分类分级标准,提升数据治理水平和管理能力......充分发挥政务数据共享协调机制作用,提升数据共享统筹协调力度和服务管理水平。建立全国标准统一、动态管理的政务数据目录,实行“一数一源一标准”,实现数据资源清单化管理......以应用场景为牵引,建立健全政务数据供需对接机制,推动数据精准高效共享,大力提升数据共享的实效性。

2.公共数据、企业数据、个人数据

类似的概念不清和逻辑不明问题,也存在于“公共数据”“企业数据”和“个人数据”这三个概念中。若单独看,每个概念或许均可自洽;但是,将这三个概念中的任何两个概念并用,都会出现某种紊乱。

3.结构化、半结构化和非结构化数据

数据包括结构化、半结构化和非结构化数据等类型。数据由非结构化到半结构化乃至到结构化,是数据加工的过程和结果。数据的结构化处理,需要付出必要成本,例如数据收集或者受让成本、数据结构化处理成本等投入。既然有投入,自然期待利益回报。正当的期待利益应受到法律保护。需要特别指出的是,结构化的数据若表现为数据库,则可以给予相应的知识产权保护。

4.数据与数字、数据化与数字化

在当前的学理研究中,“数据”与“数字”、“数据化”与“数字化”的混淆也具有一定的普遍性。

信息需要传输,不同的信息载体需要不同的传输形式。在数字化时代,将数字技术广泛应用于经济发展、社会治理、政府管理、科技进步,提高决策水平、服务效率、发展质量,源于信息载体和传输方式的革命性创新与互动,被传输的数据信息数量、质量和效率不断迭代超越。数字化时代,传输是计算机网络以数字编码的方式,在不同的通信设备之间交换电子数据的过程。数据是信息的载体,数字是传输信息的方式。在不同的智能终端之间,“信息”是被传输的对象,“数据”是被传输的载体,“数字”是传输的形式。在传输的过程中,“信息”“数据”和“数字”三者虽然合一,但并非同一事物,不能混用。而且,三者的制度需求也有差异。

5.数据与数据产品

(五)影响数据资源权利化的主要因素

数据的前述特征及其叠加,使得数据资源的权利安排具有了特殊性,展开分析如下。

1.数据的非竞争性、可复制性和非排他性,决定了不应对数据作绝对权的安排,而应通过数据权利制度安排,让数据可以被更多主体合法地持有、加工、利用,以利于数据资源在更大范围、更大程度发挥数据要素价值,促进数据资源更高质量、更高效率的开发利用。

(二)数据权利

随着数字经济的发展,数据权属问题越来越成为一个真问题。数据权利配置的复杂性和难度源于数据种类及其被持有、被处理的事实状态的复杂性。以利益为内核的权利,不仅决定着行为的起点,而且决定着行为的边界。构建数据权利体系的目的是为了建立数据行为的边界,明确数据行为所引起的法律关系的内容。数据权利应由全国性立法予以规定。

1.数据权利不同于数字权利

2.数据与所有权逻辑具有内在冲突

3.数据权利是非排他的权利

4.数据接入是数据权利的基本权能

数据资源权利化必须考虑数据资源与技术不可分离且相互促进的特征。数据资源要素化以接入数据为前提。数据资源要素化的过程,就是数据的处理过程。数据赋能生产经营活动离不开技术。未经技术处理,数据至多止于信息载体,不具有资源属性和价值。任何数据处理活动,任何数据权利的行使和数据权益的保护,都离不开数据的接入(accesstodata)。因此,数据接入是数据权利的基本权能,是行使数据权利的前提。

(三)数据行为

数据行为,亦可称之为数据处理或者数据处理行为,包括数据的收集、存储、使用、加工、传输、提供、公开以及删除等,是发现并实现数据要素价值的技术活动过程,是引发数据法律关系产生、变更和终止的法律事实。数据行为规则是搭建数据法律关系的法律基础,是数据社会关系法治化的基本依据。数据行为规则的构建,必须尊重数据及数据行为的固有特征。

1.数据行为的独立性、复合性与技术性并存

每一种数据行为,包括数据的收集、存储、使用、加工、传输、提供、公开以及删除等,都是独立的。虽然如此,不同的数据行为是可以并存的。甚至,不同数据行为并存乃至耦合在一起,不仅在技术上可行,而且在经济上更加富有效率。例如,云计算集成了数据存储、存储、使用、加工、传输、提供等众多数据处理服务,具有综合性和复合性的特点。数据处理服务的规模和范围效应,可以降低数据行为复合性的成本,提高复合性的效率。数据与数字技术的不可分离的特征,决定了数据行为与数字技术同样具有不可分离甚至合一的特征。数据行为规则必须兼顾数据行为复合性、产业化以及技术性等特点。

2.数据要素化与数据行为产业化

从数据赋能的机理分析,数据处理是数据要素化的前提和过程。没有数据处理行为,就不可能实现数据的要素化。换言之,数据要素化与数据处理行为是同步的。随着数据要素化和市场化,数据处理行为,例如,数据的收集、存储、使用、加工、传输、提供、公开等,均呈现出专门化、产业化的发展态势。数据处理行为的产业化发展,推动了数据产业自身的市场化进程。数据处理行为的产业化和市场化,一方面,加剧了产业的竞争,提出了规范发展的法治需求;另一方面,也促进了产业的创新发展,进一步推动了数据价值的深度挖掘。

3.数据要素市场化强化了数据行为主体的利益诉求

(四)数据权利、义务及责任的配置:数据法律关系的构造

数据法律制度构建有必要引入法律关系的范式。在不同的数据关系主体之间科学配置权利、义务和责任,是分析处理数据法律问题的基本方式,也是数据法律制度的应有之义。我国《数据安全法》列举了7种数据处理行为,即收集、存储、加工、使用、加工、传输、提供、公开等。在此基础上,《个人信息保护法》增列了“删除”,即“7加1”种个人信息处理行为。每一种数据处理行为都能引发数据社会关系的产生变更或者消灭。数据社会关系的法治化,是数字中国与法治中国相统一的内在要求。因此,需要在不同的数据行为主体之间科学地配置相应的权利、义务和责任,建构相应的数据法律关系。配置权利、义务和责任,既要解构数据行为引发的数据社会关系,又要结合具体应用场景,还要恪守数据及数据行为的特征以及属性。

(五)加快全国性的数据法律制度供给

1.建设数据市场和发展数字经济,需要坚持全国统一开放竞争有序的原则

3.企业数据的开发和利用需要规范和引导

总之,正确认识理解数据概念及其特征,是构建数据法律制度的前提。数据法律制度的科学构建,需要尊重数字经济发展规律、ICT技术创新驱动规律、社会进步规律和法治规律。承认并保护不同类别的正当数据利益,加快以数据权属体系为核心、以数据行为规则体系为主体的全国性数据法律制度,才能保障数据价值链、产业链的发展与安全,做强做优做大我国数字经济,护航国家发展和安全大局。

THE END
1.非结构化数据的处理技术和应用文本分析是非结构化数据处理的一种重要技术,可用于从文本数据中提取有用的信息和知识。文本分析可以分为三个步骤:文本预处理、特征提取和建模分析。文本预处理包括分词、去除停用词、文本归一化等步骤;特征提取包括词袋模型、TF-IDF等方法;建模分析包括聚类、分类、情感分析等方法。文本分析的应用场景包括社交媒体的舆情https://wenku.baidu.com/view/fea50c8f00d8ce2f0066f5335a8102d276a261e8.html
2.大数据时代的非结构化数据处理技术图像识别和视频分析技术是非结构化数据处理中不可或缺的一部分。得益于深度学习模型的快速发展,图像和视频分析技术能够从海量的视觉数据中自动提取关键特征,如物体识别、场景分类、动作分析等。 在安全监控领域,视频分析技术可以自动识别异常事件,减少人工监控的成本和误差。此外,在制造业,图像识别技术被广泛应用于产品质https://www.gokuai.com/press/a1165
3.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
4.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象随着银行业IT技术的快速发展和业务的不断升级变革,业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模也越来越大,银行业非结构化数据呈指数式爆发式增长。目前使用非结构化数据的主要系统包括内容管理平台、后督影像系统、身份验证、柜员办业务扫描件等需要用到影像图片,以及呼叫中心系统、电话客服的https://redhat.talkwithtrend.com/Article/242823
5.人工智能技术在群聊类数据分析中的探索5.其他非结构化数据 如表情符号、红包等,也是群聊中常见的交流形式。 二、人工智能技术应用 为了有效处理群聊数据的碎片化、多样化等特性,人工智能技术发挥了重要作用,主要包括: 1.自然语言处理 通过NLP技术,我们能够对群聊中的文字数据进行多种处理,包括分词、词性标注、命名实体识别等。这些处理步骤可以帮助我们更好http://www.51testing.com/mobile/view.php?itemid=7800371
6.大数据金融第二章大数据相关技术首先是利用多种轻型数据库收集海量数据,对不同来源的数据进行预处理后,整合存储到大型数据库中,然后根据企业或个人目的和需求,运用合适的数据挖掘技术提取有益的知识,最后利用恰当的方式将结果展现给终端用户。 数据处理流程 一 数据采集 大数据的采集是指在确定用户目标的基础上,对该范围内的所有结构化、半结构化、https://www.jianshu.com/p/d68251554c66
7.Top前沿:农业和应用经济学中的机器学习,其与计量经济学的比较然后,确定了当前计量经济学和模拟模型工具箱在应用经济学方面的局限性,并探索了机器学习法提供的潜在解决方案。在预测和因果分析中,深入研究了不灵活的函数形式、非结构化数据源和大量解释性变量等情况,并强调了复杂模拟模型的挑战。最后,作者认为,当用于定量经济分析时,经济学家在解决机器学习法的缺点方面有着至关https://blog.51cto.com/u_15057855/2675591
8.互联网成数据宝库,网络数据采集技术推动人工智能发展官网互联网数据量呈指数式增长,非结构化数据的应用依赖于清洗标注 PC、互联网、消费级移动设备的兴起宣告了数据时代的来临,数据量呈指数式增长,据IDC统计,全球每年生产的数据量将从2016年的16. 1ZB猛增至2025年的163ZB,其中80%-90%是非结构化数据。过去计算机主要处理结构化数据,人工智能模型却以处理非结构化数据见长https://www.tanmer.com/blog/575
9.2022年度陕西省重点研发计划项目申报指南目录4.9 大规模非结构化网格并行剖分技术研究 4.10 大流量高温燃油调节方法及调节器设计关键技术 5.新一代通信技术 5.1 空地一体化网络立体致密多维覆盖技术 5.2 面向天地一体化大规模星座的网络化测控关键技术 5.3 新型天线形态下基于大规模 MIMO 的机载数据高速传输技术 http://www.kt180.com/html/sxs/9889.html
10.中信证券非结构化数据处理平台建设实践中信证券综合应用OCR、NLP、RPA、搜索引擎、知识图谱等AI技术,在非结构化数据识别解析、自然语言理解与结构化处理、非结构化知识存储与检索等方面,开展公司级非结构化数据处理平台建设。 作者 中信证券股份有限公司信息技术中心 岳丰 王哲 刘殊玥 余怡然 方兴 https://www.secrss.com/articles/53891
11.行政管理论文15篇工商行政管理工作想要顺应时代的潮流,跟上社会发展的步伐,就必须将现代的大数据技术应用的到工商行政管理工作中,以此来提高工作效率,更好地对企业进行监督管理,助推企业的规范化稳定快速发展。 2大数据技术概述 大数据技术是在庞大的数据信息资源中进行分析、处理和检索等过程,提取出对当前工作最有利用价值的信息资源。https://www.ruiwen.com/lunwen/6220159.html
12.科学网—[转载]武新:大数据架构及行业大数据应用所谓的“大数据应用”主要是对各类数据进行整理、交叉分析、比对,对数据进行深度挖掘,对用户提供自助的即席、迭代分析能力。还有一类就是对非结构化数据的特征提取(指纹、图像、语音自动识别、基因数据比对等),以及半结构化数据的内容检索(搜索)、理解(语义分析)等。传统数据库对这类需求和应用无论在技术上还是功能上https://blog.sciencenet.cn/blog-887780-1358813.html
13.什么是数据转换,数据转换的知识介绍图像数据转换:图像数据转换包括图像格式转换、大小调整、色彩空间转换等,广泛应用于图像处理、计算机视觉等领域。 3.数据转换分类 结构化数据与非结构化数据转换 结构化数据:指具有明确定义格式和字段的数据,如数据库表格中的数据。结构化数据转换通常涉及数据表连接、聚合、筛选等操作。 https://www.eefocus.com/baike/1694420.html
14.Python实战:非结构化数据分析非结构化数据处理在当今大数据时代,非结构化数据无处不在,包括社交媒体、电子邮件、网络日志、视频监控数据等。Python作为一种强大的编程语言,提供了丰富的库和框架,用于处理和分析非结构化数据。本文将详细介绍Python在非结构化数据分析中的关键技术,并通过具体代码示例展示如何应用这些技术。https://blog.csdn.net/oandy0/article/details/137567962
15.AnyShare内容数据湖:海量非结构化数据存储与处理的基石·海量非结构化数据难以描述,难以形成结构化的属性信息以提升识别、理解、查找、利用效率 业务系统的文档属性统一管理 ·业务系统孤岛为企业带来统一管理、搜索、整合难题,业务流程打通需要元数据管理能力支撑 海量数据的文档属性访问压力 ·非结构化数据的暴增和丰富的业务应用将带来内容元数据的增长和访问压力,元数据服务https://www.aishu.cn/cn/feature/content-lake