时建中:数据概念的解构与数据法律制度的构建

数据利益;数据权利;数据行为;数据法律制度;数据法学

目录

一、数据概念的澄清:构建数据法律制度的逻辑前提与基础

二、数据资源的特征及数据权利化

三、数据法律制度的构建

(一)信息技术对信息载体的革命性创造——信息数据化、传输数字化

记录信息的能力是原始社会和先进社会的分界线之一。信息被传播、知悉和运用,需要借助载体予以传输。信息的载体形式及传输方式,实质性地影响着信息的传输质效。在一定意义上,人类社会发展史就是一部技术推动信息载体及传输方式进步的历史。

纸张一经发明即成为人类社会最主要的信息载体,造纸术、印刷术以及以火车和铁路为代表的交通运输工具等诸多方面的进步带动着纸质图书、期刊、报纸等产业的发展和变革,推动着信息、知识的传播。但纸质信息的传播,受制于纸质信息载体的传输工具和方式、社会环境等诸多因素。以纸质信件为例,只有送达至收件人,信件信息才能被阅知。杜甫的诗句“烽火连三月,家书抵万金”,饱含着对家人的无限眷念,触动着历代游子心生共鸣。

(二)数据与数字的概念辨析

包括数字经济、数字政府、数字社会在内的数字中国建设中的“数字”,其本意是充分运用ICT技术,处理数据信息和资源,提高经济效率、优化经济结构,推动优化和再造政府治理流程和模式从而不断提高决策科学性和服务效率,完善社会治理机制并精准提供社会服务。

无论作为信息载体还是生产要素,“数据”都是利益载体,具有重要的法律意义。作为法律概念,数据还衍生出体系化的数据权利、数据行为、数据利益或者数据权益以及数据法律关系等一系列法律或者法学概念,构成一个完整的概念体系,支撑数据制度体系和数据法学体系。然而,“数字”是一个技术术语,对规则的需求首先或者主要是技术标准及标准化法。

(三)数据资源化:从信息载体到生产要素

正如上文所述,ICT技术的革命性成果就是创造、开发和运用电子数据这一新兴信息载体,并使之成为人类社会前所未有且取之不尽、用之不竭的新兴生产要素。党的十九届四中全会指出:“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制。”将数据作为新兴生产要素,已经成为我国的政策选择。

诗人泰戈尔写到:“天空不曾留下鸟的痕迹,但我已经飞过。”但如果没有相应的信息记录载体和记录能力,即使鸟儿飞过,又有什么证据证明呢?这样的冰冷分析,确实让诗句有点索然无味,然而,这的确表明,信息需要载体,没有载体就等同于没有信息。无论是《网络安全法》《数据安全法》抑或《个人信息保护法》以及《民法典》,均坚守了数据是信息载体这一科学认知,并将其内涵与外延法定化。作为信息载体,是数据的初始功能。被数据承载的信息,或许关于个人,或许关于企业,或许关于社会,或许关于国家。

2.从信息载体到生产要素:数据制度目标的多元与统一

因此,如前文所述,作为信息载体,维护数据安全是优先目标;作为生产要素,开发利用数据是优先目标。两个“优先目标”虽不一致,但必须统一起来,安全是发展的前提,发展是安全的保障。维护数据安全,有利于保障数据开发利用的有序和效率;数据的开发利用,不仅推动经济发展,而且倒逼技术(包括安全技术)进步,持续提升维护数据安全的能力和水平。因此,统筹发展与安全是数据制度建设的基本指导思想。

(四)数据资源市场化是数据要素化的必然要求和必然结果

数据要素化就是数据融入并赋能生产、分配、流通、消费各经济环节的过程和结果,推动经济效率提升、结构优化、转型升级和提质增效。数据要素化离不开数据处理行为,包括数据的收集、存储、使用、加工、传输、提供、公开等。每一种数据处理行为,还包含着许多具体处理活动。以数据加工为例,至少包括数据的标注、清洗、脱敏、脱密、聚合、分析等提升数据质量的多个环节。数据必须经过处理,才能高质量赋能经济发展和社会治理。提升数据质量的每个处理环节和行为,凝聚了数据处理行为主体的投入,寄托了数据处理主体的正当的、合理的利益期待,应予以保护。

数据要素化的必然结果就是数据资源市场化和数据处理行为产业化。数据资源市场化,就是指通过市场机制配置数据资源,提高数据资源配置效率和质量。数据资源市场化,涵盖各种数据的各种状态,例如,个人数据和非个人数据、结构化数据和非结构化数据,等等;数据处理行为的产业化,就是推动数据的收集、存储、使用、加工、传输、提供、公开以及删除等数据处理行为的产业化。数据资源市场化和数据处理行为产业化,需要数据法律制度予以规范和引导,以进一步提高数据质量、提高数据要素的赋能质效。

(一)数据资源的特征

作为一种新兴生产要素,数据资源的特征,决定了数据权利化的特殊性和复杂性。数据权利化必须与数据的特征相符,且能最大程度发挥数据的资源价值。

1.数据的非竞争性

2.可复制性

数字化时代,信息主要在网络环境基于数字技术并以电子形式生成和记载,亦即电子形式的数据越来越多。电子数据与有体物的一个重要区别,就是其可复制性。数据的可复制性,一方面有利于促进数据的开发利用,另一方面也加大了数据保护的难度。虽具可复制性,但是,电子数据不同于法律意义上的无形财产,与知识产权既有的客体亦不相同。

3.非排他性

数据的非排他性就是数据可以同时被众多主体控制、处理和利用,亦即数据被一个主体控制、处理和利用时,不妨碍其他主体同时控制、处理和利用该数据信息。数据的非竞争性、可复制性和非排他性,使数据具有公共物品的属性。通过技术、协议等手段排除限制其他主体使用数据,不仅降低数据资源的应然效率而且有可能违背公众的共同利益甚至公共利益。

(二)数据信息和数据资源的保护、开发与利用均离不开ICT技术

数据要素化的过程,就是数据的处理过程。数据要素赋能生产经营活动和数据处理均离不开ICT技术。未经ICT技术处理,数据至多止于信息载体,不具有生产要素属性和价值。任何数据处理行为和数据要素化的每一个环节,以及数据权益的保护和实现,都离不开ICT技术驱动下的数据接入(accesstodata)。因此,数据权利的配置必须尊重数据要素与ICT技术的不可分离的特征。

1.数据与移动通信技术

没有移动通信技术不断进步,特别是电信信号由模拟信号到数字信号的革命性创新,数据无法以数字编码和方式跨通信设备传输并被计算机处理,更遑论建设数字经济、数字政府和数字社会。基于大带宽、低时延、高速率的传输特性,5G融合应用已在工业、医疗、教育、交通等多个行业领域发挥赋能效应,覆盖国民经济40个大类。5G不仅带来更高速、优质的网络体验,也为数字经济发展修好桥、铺好路。实现人机物互联的网络基础设施,支撑数字经济、数字政府、数字社会的能力越来越强,数据呈现出爆炸式增长的态势。以数据流引领技术流、物质流、资金流、人才流,将深刻影响社会分工协作的组织模式,促进生产组织方式的集约和创新。只有基础电信业务发展和安全,才能奠定好网络与数据安全的底座。电信法对于构建网络综合治理体系具有重要作用,是解决网络和数据立法共性问题的重要基石,是支撑数字中国建设的基本法律,应当加快立法进程。

2.数据与大数据、云计算、区块链、物联网以及人工智能等数字技术

云计算是推动信息技术能力实现按需供给、促进信息技术和数据资源充分利用的全新业态,是信息化发展的重大变革和必然趋势。云计算对数据资源的集聚作用,可实现数据资源的融合共享,推动大数据挖掘、分析、应用和服务。实施“上云用数赋智”行动,推动数据赋能全产业链协同转型。在数字化时代,算力作为关键的生产力要素,既是国民经济发展的重要基础,也是科技竞争的新焦点,已成为推动数字化发展的核心支撑力和驱动力。数据是云计算的技术标的,云计算是数据的处理行为和过程。规范和引导云计算的运用,同样需要数据法律制度为前提。

物联网即“万物相连的互联网”,是互联网基础上的延伸和扩展,将各种信息传感设备与网络结合起来,以感知技术和网络通信技术为主要手段,实现人、机、物的泛在连接,提供信息感知、信息传输、信息处理等服务的基础设施。随着经济社会数字化转型和智能升级步伐加快,物联网已经成为新型基础设施的重要组成部分。通过射频识别、红外感应器、全球定位系统、激光扫描器等信息传感设备,将用户端延伸和扩展到了任何物品与物品之间,并与互联网相连接,进行信息交换和通信,以实现对物品的智能化识别、定位、跟踪、监控和管理。“万物互联”是以万物数据化为前提和过程的,数据法律制度无疑是物联网法治化的内核。

区块链作为一项新兴技术,具有不可篡改、匿名性等特性,具有增强安全性、更大的透明度、即时可追溯性、提高效率和速度、自动化等优势,在供应链和食物链、银行业和保险等金融行业、医疗保健、医药、智慧政府等行业和领域具有广泛的运用前景。区块链技术生成的数据结构本身具有安全质量保障。基于密码学、去中心化和共识原则,可确保对交易的信任。在大多数区块链或分布式账本技术(DLT)中,数据被结构化为块,每个块都包含一笔交易或一组交易。每个新块都以加密链的形式与之前的所有块相连,几乎不可能被篡改。区块内的所有交易都通过共识机制进行验证和商定,确保每笔交易的真实性和正确性。区块链技术通过成员参与分布式网络来实现去中心化。没有单点故障,单个用户无法更改交易记录。区块链是一种不依赖第三方,通过自身分布式节点进行网络数据的存储、验证、传递和交流的一种技术方案,因此,区块链技术的运用质效,很大程度上依赖数据法律制度的健全与完善。

经过60多年的演进,特别是在移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术以及经济社会发展强烈需求的共同驱动下,人工智能加速发展,呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征。大数据驱动知识学习、跨媒体协同处理、人机协同增强智能、群体集成智能、自主智能系统成为人工智能的发展重点,受脑科学研究成果启发的类脑智能蓄势待发,芯片化硬件化平台化趋势更加明显,人工智能发展进入新阶段。我国人工智能技术快速发展、数据和算力资源日益丰富、应用场景不断拓展,为开展人工智能场景创新奠定了坚实基础。加速积累的技术能力与海量的数据资源、巨大的应用需求、开放的市场环境有机结合,形成了我国人工智能发展的独特优势。人工智能需要数据来建立其智能,特别是机器学习。人工智能应用的数据越多、质量越高,其获得的结果就越准确。

3.数据与元宇宙

(三)数据与算法

目前,算法存在以下突出问题:一是算法透明度不够,犹如黑箱。二是算法歧视,表现为算法不公平、不正义。三是信息“茧房”,表现为一些资本裹挟算法,向民众推送“选定信息”,迫使民众接收“茧房化”信息。四是诱导沉迷,例如,内容推荐算法在用户偏好、行为等数据的训练和强化下,不断优化推送用户感兴趣的内容,锁定用户注意力,导致用户沉迷甚至成瘾。五是算法剥削,例如一些平台企业运用算法来监视、操控劳动者,致使劳动力市场逐底竞争,造成低保障或无保障的“零工经济”泛滥,损害劳动者权益。六是算法违法,例如,通过算法实施违法的数据处理行为。这些问题滋生于两大根源:一是价值层面,算法运用者的商业伦理和价值观需要端正;二是数据与算法的监管制度供给不够、不优、不力。

笔者认为,算法公平的实现,不能寄希望于算法的公开和算法的可解释。这是因为:第一,对于是否公开,缺失必要的标准;第二,一旦涉及到企业的商业秘密或者技术秘密,算法有限度的公开不足以解释算法歧视;第三,算法是动态优化的,对算法的理解和解释,不应要求普通大众具有相应的必备知识和技能。因此,对于算法的监管和治理,应当确立结果导向的思维和机制。申言之,算法是否导致了不公平或者歧视,首先是事实问题,而不是法律问题。如果算法歧视属实,责任主体就应纠正算法意图实现的目标以及实现目标的参数。至于采取何种程序以及如何纠正,是算法责任者的法定义务,纠正的结果则又是事实问题。因此,如果作为证据,用于对算法的公平性予以验证,算法的备案等机制或许有一定的意义。在治理算法的过程中,监管机构可以作出责令纠正算法的决定并对责任者纠正算法的效果予以监督;责任者拒不纠正或者纠正未达预期效果的,监管机构有权采取强制审计、第三方代为纠正(代履行)、行政处罚或者行政强制等措施。

1.政府数据、政务数据、公共数据与社会数据

加强数据治理和全生命周期质量管理,确保政务数据真实、准确、完整。建立健全数据质量管理机制,完善数据治理标准规范,制定数据分类分级标准,提升数据治理水平和管理能力......充分发挥政务数据共享协调机制作用,提升数据共享统筹协调力度和服务管理水平。建立全国标准统一、动态管理的政务数据目录,实行“一数一源一标准”,实现数据资源清单化管理......以应用场景为牵引,建立健全政务数据供需对接机制,推动数据精准高效共享,大力提升数据共享的实效性。

2.公共数据、企业数据、个人数据

类似的概念不清和逻辑不明问题,也存在于“公共数据”“企业数据”和“个人数据”这三个概念中。若单独看,每个概念或许均可自洽;但是,将这三个概念中的任何两个概念并用,都会出现某种紊乱。

3.结构化、半结构化和非结构化数据

数据包括结构化、半结构化和非结构化数据等类型。数据由非结构化到半结构化乃至到结构化,是数据加工的过程和结果。数据的结构化处理,需要付出必要成本,例如数据收集或者受让成本、数据结构化处理成本等投入。既然有投入,自然期待利益回报。正当的期待利益应受到法律保护。需要特别指出的是,结构化的数据若表现为数据库,则可以给予相应的知识产权保护。

4.数据与数字、数据化与数字化

在当前的学理研究中,“数据”与“数字”、“数据化”与“数字化”的混淆也具有一定的普遍性。

信息需要传输,不同的信息载体需要不同的传输形式。在数字化时代,将数字技术广泛应用于经济发展、社会治理、政府管理、科技进步,提高决策水平、服务效率、发展质量,源于信息载体和传输方式的革命性创新与互动,被传输的数据信息数量、质量和效率不断迭代超越。数字化时代,传输是计算机网络以数字编码的方式,在不同的通信设备之间交换电子数据的过程。数据是信息的载体,数字是传输信息的方式。在不同的智能终端之间,“信息”是被传输的对象,“数据”是被传输的载体,“数字”是传输的形式。在传输的过程中,“信息”“数据”和“数字”三者虽然合一,但并非同一事物,不能混用。而且,三者的制度需求也有差异。

5.数据与数据产品

(五)影响数据资源权利化的主要因素

数据的前述特征及其叠加,使得数据资源的权利安排具有了特殊性,展开分析如下。

1.数据的非竞争性、可复制性和非排他性,决定了不应对数据作绝对权的安排,而应通过数据权利制度安排,让数据可以被更多主体合法地持有、加工、利用,以利于数据资源在更大范围、更大程度发挥数据要素价值,促进数据资源更高质量、更高效率的开发利用。

(二)数据权利

随着数字经济的发展,数据权属问题越来越成为一个真问题。数据权利配置的复杂性和难度源于数据种类及其被持有、被处理的事实状态的复杂性。以利益为内核的权利,不仅决定着行为的起点,而且决定着行为的边界。构建数据权利体系的目的是为了建立数据行为的边界,明确数据行为所引起的法律关系的内容。数据权利应由全国性立法予以规定。

1.数据权利不同于数字权利

2.数据与所有权逻辑具有内在冲突

3.数据权利是非排他的权利

4.数据接入是数据权利的基本权能

数据资源权利化必须考虑数据资源与技术不可分离且相互促进的特征。数据资源要素化以接入数据为前提。数据资源要素化的过程,就是数据的处理过程。数据赋能生产经营活动离不开技术。未经技术处理,数据至多止于信息载体,不具有资源属性和价值。任何数据处理活动,任何数据权利的行使和数据权益的保护,都离不开数据的接入(accesstodata)。因此,数据接入是数据权利的基本权能,是行使数据权利的前提。

(三)数据行为

数据行为,亦可称之为数据处理或者数据处理行为,包括数据的收集、存储、使用、加工、传输、提供、公开以及删除等,是发现并实现数据要素价值的技术活动过程,是引发数据法律关系产生、变更和终止的法律事实。数据行为规则是搭建数据法律关系的法律基础,是数据社会关系法治化的基本依据。数据行为规则的构建,必须尊重数据及数据行为的固有特征。

1.数据行为的独立性、复合性与技术性并存

每一种数据行为,包括数据的收集、存储、使用、加工、传输、提供、公开以及删除等,都是独立的。虽然如此,不同的数据行为是可以并存的。甚至,不同数据行为并存乃至耦合在一起,不仅在技术上可行,而且在经济上更加富有效率。例如,云计算集成了数据存储、存储、使用、加工、传输、提供等众多数据处理服务,具有综合性和复合性的特点。数据处理服务的规模和范围效应,可以降低数据行为复合性的成本,提高复合性的效率。数据与数字技术的不可分离的特征,决定了数据行为与数字技术同样具有不可分离甚至合一的特征。数据行为规则必须兼顾数据行为复合性、产业化以及技术性等特点。

2.数据要素化与数据行为产业化

从数据赋能的机理分析,数据处理是数据要素化的前提和过程。没有数据处理行为,就不可能实现数据的要素化。换言之,数据要素化与数据处理行为是同步的。随着数据要素化和市场化,数据处理行为,例如,数据的收集、存储、使用、加工、传输、提供、公开等,均呈现出专门化、产业化的发展态势。数据处理行为的产业化发展,推动了数据产业自身的市场化进程。数据处理行为的产业化和市场化,一方面,加剧了产业的竞争,提出了规范发展的法治需求;另一方面,也促进了产业的创新发展,进一步推动了数据价值的深度挖掘。

3.数据要素市场化强化了数据行为主体的利益诉求

(四)数据权利、义务及责任的配置:数据法律关系的构造

数据法律制度构建有必要引入法律关系的范式。在不同的数据关系主体之间科学配置权利、义务和责任,是分析处理数据法律问题的基本方式,也是数据法律制度的应有之义。我国《数据安全法》列举了7种数据处理行为,即收集、存储、加工、使用、加工、传输、提供、公开等。在此基础上,《个人信息保护法》增列了“删除”,即“7加1”种个人信息处理行为。每一种数据处理行为都能引发数据社会关系的产生变更或者消灭。数据社会关系的法治化,是数字中国与法治中国相统一的内在要求。因此,需要在不同的数据行为主体之间科学地配置相应的权利、义务和责任,建构相应的数据法律关系。配置权利、义务和责任,既要解构数据行为引发的数据社会关系,又要结合具体应用场景,还要恪守数据及数据行为的特征以及属性。

(五)加快全国性的数据法律制度供给

1.建设数据市场和发展数字经济,需要坚持全国统一开放竞争有序的原则

3.企业数据的开发和利用需要规范和引导

总之,正确认识理解数据概念及其特征,是构建数据法律制度的前提。数据法律制度的科学构建,需要尊重数字经济发展规律、ICT技术创新驱动规律、社会进步规律和法治规律。承认并保护不同类别的正当数据利益,加快以数据权属体系为核心、以数据行为规则体系为主体的全国性数据法律制度,才能保障数据价值链、产业链的发展与安全,做强做优做大我国数字经济,护航国家发展和安全大局。

THE END
1.什么是大数据处理中的unstructureddata与非结构化数据相关的主要挑战之一是其固有的缺乏组织,这使得使用传统方法进行分析变得困难。结构化数据以行和列的形式组织,可以轻松查询和分析。相反,非结构化数据没有预定义的架构,其含义不是立即明显的。因此,处理和从非结构化数据中提取有价值的见解需要先进的技术,如自然语言处理(NLP)、机器学习和人工智能。 https://open.alipay.com/portal/forum/post/147801017
2.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
3.非结构化数据分析技术非结构化数据主要包括6 非结构性数据预处理 非结构化数据是数据结构不规则或者说是不完整,没有预设的数据模型或者结构,不便使用数据库、模型及标准的数据接口表现的数据,包括所有格式的文本、图片、各类报表、图像、音频、视频数据等。 计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据的形式非常多样,标准也具有多样性https://blog.51cto.com/u_16099165/6757640
4.如何高效处理非结构化数据:挑战与解决方案一、非结构化数据处理面临的挑战 数据规模庞大:非结构化数据量巨大,且持续增长,给企业的存储、管理和分析带来巨大压力。 数据类型多样:非结构化数据包括文本、图像、音频、视频等多种形式,每种类型的数据都需要特定的处理技术。 数据价值密度低:非结构化数据中包含了大量的冗余和无关信息,这使得从海量数据中提取有价https://www.gokuai.com/press/a683
5.大数据金融第二章大数据相关技术首先是利用多种轻型数据库收集海量数据,对不同来源的数据进行预处理后,整合存储到大型数据库中,然后根据企业或个人目的和需求,运用合适的数据挖掘技术提取有益的知识,最后利用恰当的方式将结果展现给终端用户。 数据处理流程 一 数据采集 大数据的采集是指在确定用户目标的基础上,对该范围内的所有结构化、半结构化、https://www.jianshu.com/p/d68251554c66
6.人工智能技术在群聊类数据分析中的探索5.其他非结构化数据 如表情符号、红包等,也是群聊中常见的交流形式。 二、人工智能技术应用 为了有效处理群聊数据的碎片化、多样化等特性,人工智能技术发挥了重要作用,主要包括: 1.自然语言处理 通过NLP技术,我们能够对群聊中的文字数据进行多种处理,包括分词、词性标注、命名实体识别等。这些处理步骤可以帮助我们更好http://www.51testing.com/mobile/view.php?itemid=7800371
7.非结构化数据如何挖掘帆软数字化转型知识库非结构化数据的挖掘可以通过多种方法实现,包括自然语言处理(NLP)、机器学习、文本挖掘、图像和视频分析。自然语言处理是一种广泛应用的方法,通过分析和理解文本数据的语义结构来提取有用的信息。NLP可以帮助企业从大量的文本数据中获取有价值的洞察,例如用户评论、社交媒体帖子和电子邮件。通过使用NLP技术,企业可以识别情感https://www.fanruan.com/blog/article/611442/
8.我校召开非结构化数据资源管理技术研讨会信息化处为充分探索高校非结构化数据管理新思路、新模式,7月6日上午,在我校未央校区教学状态监控中心召开非结构化数据资源管理技术研讨会。北京传奇华育教育科技股份有限公司董事长丁喆、产品总监刘冰、销售总监马海及技术工程师,西安医学院信息技术处处长张成及相关科室负责人参加了会议。 http://wlzx.xiyi.edu.cn/info/1094/1488.htm
9.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象随着银行业IT技术的快速发展和业务的不断升级变革,业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模也越来越大,银行业非结构化数据呈指数式爆发式增长。目前使用非结构化数据的主要系统包括内容管理平台、后督影像系统、身份验证、柜员办业务扫描件等需要用到影像图片,以及呼叫中心系统、电话客服的https://redhat.talkwithtrend.com/Article/242823
10.“平民化”非结构数据处理腾讯云开发者社区在全球信息产业高速发展的背景下,IDC预测,2018 到 2025 年之间,全球产生的数据量将会从 33 ZB 增长到 175 ZB, 复合增长率27%,其中超过 80%的数据都会是处理难度较大的非结构化数据,如文档、文本、图形、图像、音频、视频等。非结构化数据在大数据时代的重要地位已成为共识。近些年,伴随着大数据存储、人工智能(https://cloud.tencent.com/developer/article/2214210
11.互联网成数据宝库,网络数据采集技术推动人工智能发展官网过去计算机主要处理结构化数据,人工智能模型却以处理非结构化数据见长,但“玉环琢不成器” ,数据经过清洗与标注才能被唤醒价值,这就产生了源源不断的清洗与标注需求。在我国,每年需要进行标注的语音数据超过200万小时,图片则有数亿张。 在获取网络数据的过程中,数据的采集耗费大量人力和时间,依赖人工标注已经不能满足https://www.tanmer.com/blog/575
12.什么是非结构化数据?-旧有工具缺陷:传统的数据处理工具和技术,如SQL等,无法处理非结构化数据的庞杂分析需求。 解决非结构化数据挑战的方案 为了有更好的应对非结构化数据挑战,我们可以从以下几个方面入手。 -自然语言处理技术:使用自然语言处理技术,将非结构化数据转化为可处理的结构化数据,方便进行数据分析。 https://www.filez.com/news/detail/faee08ab6bdc85c2d6216e4773bcc01f.html
13.行政管理论文15篇这势必导致学生处理社会现实问题和交往能力的技能很难有所提升,他们的知识结构、能力结构和素质明显存在不平衡,很难适应信息社会高速发展的需要。操作性和实践性教学严重薄弱。虽然目前我国高校《行政管理学》课程内容体系一般都设置了教学实习、实训等实践环节,但由于其时间短、任务重,而且管理松散,缺乏常态化和规范化,https://www.ruiwen.com/lunwen/6220159.html
14.数据架构:大数据数据仓库以及DataVault按照数据处理方式进行划分的原因是,重复型非结构化数据几乎完全是通过一个管理Hadoop的固定设施来处理的。对于重复型非结构化数据而言,其重点完全集中在对大数据管理器(例如Hadoop)中的数据进行访问、监视、显示、分析和可视化。 非重复型非结构化数据的重点则几乎完全集中在文本消歧上。这里的重点在于消歧的类型、输出的https://www.ituring.com.cn/book/tupubarticle/11854
15.一看就懂!15个交互与UI必懂的技术用语优设网2. 非结构化数据: 与上面相反,很难用统一的格式/结构来组织、且不能用二维关系表展示的数据。 比如:各种散落文本、图片、视频音频、文档、HTML 等 特点:信息展示比较零散 版本兼容 指新/老版本之间,在产品信息与能力上的协调或处理。一般体现在 2 个方面:数据兼容和功能兼容。 https://www.uisdc.com/15-ui-technical-terms/
16.墨奇科技宣布完成2.5亿元B轮融资美通社PR生物识别作为墨奇科技 AI 底层数据处理技术的行业应用,以十亿级海量图像识别与精准搜索,验证了墨奇在处理非结构化数据上技术路线的成功性。 AI 底层数据处理技术也为墨奇的生物识别业务带来了图像无标注比对、十亿大库秒识别、保护隐私和安全等优势,开启了新一代的生物识别平台。 https://www.prnasia.com/story/319423-1.shtml
17.一文带你了解五种典型数据入湖嘲新时代下,通过数字化手段实现精细化运营,释放数据价值,助力企业降本增效,筑牢核心竞争力已是大势所趋。众所周知,企业的数据量随着业务不断增加,结构化、非结构化、半结构化数据类型复杂多变,为此实时入湖、实时分析,大大降低数据处理成本的湖仓一体架构平台,成为企业的首选。 https://maimai.cn/article/detail?fid=1737980109&efid=Z6YwIjWEl_nV7fbEQ0l9SA