大数据应用蓝皮书“双碳”数字化监测服务平台及应用解决方案学术探讨管理荟萃

关键词:“双碳”碳账户碳排放数字化监测服务平台

作者简介

张建忠

万泽时代(北京)科技有限公司总经理

王嵩

万泽时代(北京)科技有限公司资深架构师

以下为《“双碳”数字化监测服务平台及应用解决方案》全文:

“双碳”数字化监测服务平台及应用解决方案

一、“双碳”数字化监测服务发展背景

实现碳达峰、碳中和是当前和今后一个时期中国实施的重大战略之一。2021年10月,中共中央、国务院先后出台《关于完整准确全面贯彻新发展理念做好碳达峰、碳中和工作的意见》(以下简称《意见》)和《2030年前碳达峰行动方案》(以下简称《方案》)等纲领性文件,明确碳达峰、碳中和的“1+N”政策框架。《意见》是覆盖碳达峰、碳中和两个阶段的宏观设计,在“双碳”政策体系中发挥引领作用,是“1+N”中的“1”。《方案》是“N”中为首的政策文件,有关部门和企业单位将根据《方案》部署制定各自领域以及具体行业的碳达峰实施方案,是碳达峰阶段的总体部署,在目标、原则、方向等方面与《意见》保持有机衔接的同时,更加聚焦2030年碳达峰目标,更加细化、实化、具体化(见图1)。

图1碳达峰、碳中和“1+N”政策体系

针对碳排放监测统计难题,国家层面已提出明确要求。2021年8月,国家碳达峰、碳中和工作领导小组办公室联合多个部门成立碳排放统计核算工作组。2022年6月,国务院正式印发的《国务院关于加强数字政府建设的指导意见》(国发〔2022〕14号)明确要求:“加快构建碳排放智能监测和动态核算体系,推动形成集约节约、循环高效、普惠共享的绿色低碳发展新格局,服务保障碳达峰、碳中和目标顺利实现。”①

要实现碳达峰、碳中和目标要依靠技术变革,更需要提升管理能力。建设“双碳”数字化监测服务平台,利用数字化技术提升碳排放管理能力,形成健全的碳排放核算、监测和统计体系,有利于摸清碳排放底数,进而有利于科学分解减排任务、客观评估考核工作进展,才能科学高效地制定减排方案,全面助力“双碳”目标的实现。

二、“双碳”数字化监测服务平台的目标

“双碳”数字化监测平台是利用数字技术和算法赋能管理部门建立的各个主体的碳排放账户,可全面提高碳排放核算统计、排放任务分配和评估考核、减排规划方案制定的能力,显著提升管理部门的管理水平和决策的科学性。“双碳”数字化监测服务平台的建设目标有以下几点。

●基于国际通行的碳排放核算方法,自动核算微观主体的碳排放量,摸清各类主体碳排放底数。

●建立微观主体碳账户,完整准确记录各个主体的碳排放量、碳排放配额、自愿减排数量、家庭低碳行为等,有效落实分解微观主体的碳排放责任。

●利用“双碳”监测服务平台动态监测各区域、各行业、各园区、各微观主体的碳排放量,考核评估减排工作成效,科学制定碳减排规划,分析挖掘减排潜力,预测减排趋势。

三、“双碳”数字化监测服务平台建设方案

该平台业务架构设计以深刻理解碳达峰、碳中和国家战略目标与内涵为基础,遵从碳达峰、碳中和行动方案和规划蓝图,以业务需求为导向,以新技术为引领,以智慧应用为方略,构建“双碳”数字化监测服务平台。

(一)平台系统架构

1.业务架构

“双碳”数字化监测服务平台的业务主要包括碳足迹展示、碳排放监测、碳减排分析、数据可视化、数据应用5块内容。系统业务架构如图2所示。

(1)碳足迹展示

主要包括能源结构分析、能流分析、碳流分析、碳足迹对比分析。

(2)碳排放监测

主要包括基于电力数据的区域碳排放监测、基于能源数据的产业碳排放监测、基于电力数据的火电行业碳排放监测、基于能源数据的能源行业碳排放监测、基于能源数据的工业行业碳排放监测、基于能源数据的交通行业碳排放监测、基于能源数据的建筑行业碳排放监测、基于电力数据的建筑行业碳排放测算、重点园区碳排放监测、企业碳排放监测、碳排放强度分析。

(3)碳减排分析

主要包括可再生能源并网发电碳减排,电能替代碳减排监测、分析和预测,煤改电碳减排监测、分析和预测,电动汽车减排监测、分析和预测,港口岸电改造减排监测、分析和预测,工业窑炉改造碳减排监测分析和预测。

(4)数据可视化

主要包括能源结构分析大屏端展示、能流分析大屏端展示、碳流分析大屏端展示、区域碳排放大屏端展示、产业碳排放大屏端展示、火电行业碳排放大屏端展示、能源行业碳排放大屏端展示、工业行业碳排放大屏端展示。

(5)数据应用

主要包括降碳与经济发展关联模型、降碳与区域经济发展关联分析、降碳对产业结构的影响分析、降碳对能源结构的影响分析。

2.应用架构

如图3所示,平台系统应用架构主要分为4层:数据采集层、数据平台层、应用支撑层、应用分析层。

(1)数据采集层

(2)数据平台层

将各种底层数据进行数据汇聚、数据加工、数据存储计算。

(3)应用支撑层

主要包括各种应用工具,如集成工具、分析工具、模型工具、中间件等。

(4)应用分析层

主要进行碳排放监测服务的分析展示和降碳与经济发展关联数据分析。

3.技术架构

如图4所示,“双碳”数字化监测服务平台技术架构采用分层架构设计。包括数据采集层、数据平台层、数据支撑层、应用支撑层和应用展示层。

采用大数据平台进行“双碳”数据平台建设。包括结构化数据和非结构化数据的统一管理。

(3)数据支撑层

(4)应用支撑层

包括容器管理、集成工具、分析工具、模型工具、数据服务、身份认证、服务目录、微服务治理、微服务开发框架、日志支持、时空引擎、可视化引擎等模块。

(5)应用展示层

可视化展示和门户网站。

4.数据架构

如图5所示,“双碳”数字化监测服务平台系统数据架构主要分为4层,分别为数据源、数据汇聚、数据资源、数据服务。

图5“双碳”数字化监测服务平台系统数据架构

(1)数据源

包括数据中台、能源大数据中心、联合国统计数据库、欧盟统计数据库、政府统计数据、中国统计年鉴、中国能源统计年鉴、中国环境统计年鉴、地方统计年鉴、政府统计年鉴、其他行业统计信息等。

(2)数据汇聚

包括数据汇聚、数据存储、数据计算、数据治理、数据管理等。

(3)数据资源

包括碳排放监测基础数据库、区域碳排放监测数据、产业行业碳排放监测数据、碳排放分析数据。

(4)数据服务

包括API调用、大屏端展示、数据分析等。

5.安全架构

图6“双碳”数字化监测服务平台系统安全架构

(二)平台系统功能设计

1.数据层

(1)数据源支持

平台支持各种主流关系型数据库,如Oracle、DB2、Sybase、SQLServer、MySql、金仓、达梦等。平台也支持各类主流文件类型接口,Excel、TXT通过文件自动上载服务以及文件解析服务直接完成上载文件的交换,同时根据目标节点需求完成文件格式(支持Excel和XML格式文件)转化为多种数据库格式的工作。平台支持主流的协议接口,如HTTP、RESTful、WebService等,用于外部调用。对于非Web服务类型的接口,平台提供txt文本、数据库表交换、XML文件交换等接口技术,实现应用系统与共享交换平台的异构系统数据集成。

(2)数据ETL服务

通过作业集成服务来设计在各个数据源之间的数据抽取、数据转换和数据装载过程,整个数据集成过程被记录在作业文件中,作业文件作为数据交换与集成的过程导出,从而进行执行。作业集成服务作为一个可视化的数据调试模块,可通过该功能进行调试和性能分析,利用作业集成服务提供的组件进行数据的抽取、转换和装载等数据集成和交换过程。数据抽取是从数据源中抽取数据的过程,实际情况中,数据源较多采用的是关系数据库或者结构化数据文件。数据转换是将数据从一种表示形式转化成另一种表现形式的过程,就是对数据的合并、清理和整合,可以让来自不同数据源的数据在语义和格式上达成一致。数据装载指的是将转换好的数据保存到数据库中。一般情况下,数据转载应该在系统完成更新之后进行。数据如果来自多个操作系统,则应该保证在系统同步时移动数据。

(3)作业管理

作业管理模块提供了平台作业文件管理和部署等功能,用户可通过该功能管理和维护作业文件,并可维护作业的全生命周期。该模块可实现作业创建、作业修改、作业删除、作业冻结、作业激活、作业导出、作业文件上传部署等功能。作业流管理是指用户可根据已经创建好的多个作业完成作业流的编排配置,并可配置和选择作业的执行先后顺序,系统的作业执行引擎可自动解析作业流并且按照作业流执行作业,并能够支持作业流的创建、修改、删除。作业状态维护是指对作业的运行过程和运行状态进行维护管理,用户可激活或冻结作业完成对作业状态和行为的控制。已被冻结的作业不能够被调度,同时用户可激活已冻结的作业而重新使用该作业。作业部署是指通过作业部署功能对作业集成服务设计完成的作业文件进行部署,用户可选择相应的作业文件模型完成作业部署。并且可对已部署成功的作业进行下载、删除等管理能力。

(4)调度管理

(5)运行监控

(6)统计分析

(7)模型算法管理

模型算法管理是指具备运用大数据手段分析建模的能力。能够结合实际情况,按照客户的要求对数据进行脱敏、清洗、加工、建模、监控,保证数据使用安全、准确和有效。最终保障实现碳排放监测及降碳与经济发展关联分析等需求。

2.应用层

如图7所示,应用层可以将整合的“双碳”数据以数据服务的方式进行全域共享,这部分主要通过数据共享服务来实现。

图7“双碳”数字化监测服务平台系统功能-应用层

(1)数据发布与订阅

首先在数据源数据库服务器上发布需要同步的数据,然后在目标数据库服务器上对上述发布进行订阅。可以发布一张表的部分数据,也可以发布整张表。

(2)数据资源服务目录管理

资源编目是指对已经数字化资源的特征进行分析、选择、表述,再根据标准将其按照一定的结构组成目录的过程,目的是能够便捷、高效、准确地检索资源。用户可通过资源编目模块对关系型数据库、文件存储、大数据平台、分析计算引擎、接口编目这5种类型的资源信息进行管理、维护,主要操作包括新增关系型数据库、新增文件存储、新增大数据平台、新增接口编目、新增分析计算引擎、修改、删除、查看、编制、搜索、重置。目录管理是用户将已经建好的资源信息实现发布的模块,包括提交、审核、发布、驳回、已发布步骤。

支持HDFS分布式文件存储、S3分布式云存储,在资源信息/文件类型中选择文件存储方式,根据文件存储配置管理文件链接方式,信息编辑查看文件目录信息。

资源编目完美支持Hadoop分布式系统,在资源信息/大数据类型中选择大数据类型Hive数据仓库,根据大数据库类型配置相应的数据连接,信息编辑查看内容,并进行字段权限管理。

资源编目大数据支持HBase分布式的、面向列的开源数据库,在资源信息/大数据类型中选择大数据类型,根据大数据库类型配置相应的数据连接,信息编辑查看表列表并进行列族管理。

用户可查看资源信息状态,并将资源信息提交给上一级进行审核。

目录发布是通过审核且待发布的资源信息。用户在已发布列表中查看通过审核并已发布成功的资源信息,用户可以订阅已发布的资源信息。

(3)数据服务目录订阅

资源信息发布成功后,用户可以订阅查看。目录订阅是管理用户订阅资源信息的模块,主要分为目录订阅、目录审核、被驳回目录。

(4)资源目录梳理

目录梳理是管理对资源信息的梳理、需求的功能模块。包括资源信息、应用系统信息、需求信息3个模块。

(5)资源信息管理

用户在新增资源信息前可以将资源信息梳理出来,通过编目将资源信息转到目录编制中,资源信息就是用户梳理资源信息的模块。主要操作有编目、查看、新增、编辑、删除、搜索、重置等。

(三)灾备设计

1.备份设计

(1)备份技术

(2)备份策略

为了业务系统使用的连续性和高可用,数据备份选在凌晨进行,每天凌晨2:00进行一次数据全备份,每间隔8小时进行一次增量备份。可以根据业务场景和需求灵活定制备份策略。

2.容灾设计

(1)灾备网络

建立异地数据灾备系统,可以基于客户原有的灾备体系,将“双碳”管理平台作为业务系统之一纳入灾备统一管理,同时必须考虑数据传输的带宽及延时等因素。

(2)灾容技术

按对系统的保护程度,容灾实现方式主要分为以下几种。

(四)可视化设计

1.PC端可视化

为满足移动感知层的统一,PC端按要求统一的UI规范来开发。避免出现风格不统一的情况,例如页面布局、配色、字体大小、界面尺寸、图标尺寸等不统一。

2.大屏端可视化

大屏端可视化也要按照统一UI规范开发,例如页面布局、配色、字体大小、界面尺寸、图标尺寸等(见图8)。

图8大屏端可视化示意图

(五)数据库设计

1.库表设计

(1)设计需求与特点

根据系统架构中的组件划分,针对每个组件所处理的业务进行组件单元的数据库设计,不同组件对应的数据库表之间的关联应尽可能减少,确保组件对应的表之间的独立性,为系统或表结构的重构提供可能性;采用领域模型驱动的方式和自顶向下的思路进行数据库设计,首先分析系统业务,根据职责定义对象,根据建立的领域模型进行数据库表的映射。

●融合数据架构设计:数据架构采用结构化和非结构化融合数据架构设计,以满足不同业务需要。引入NOSQL数据库技术建立融合数据库结构存储半结构化,非结构化数据。

●分区分表设计:在数据库设计阶段,充分考虑业务数据量及业务增长量。应对该表进行分区,同时应用模块应根据分区字段设计SQL的检索条件。分区表是把原本存储于一个表空间(物理文件上)的数据分块存储到多个表空间(物理文件上)上,从而降低单个表空间(物理文件上)的记录数,提高数据库操作的执行效率,需按数据规模和使用场景等维度进行分析并设计分区方案。

●非结构化数据管理强化:系统涉及非结构化数据,在新系统设计中基于大数据管理平台统一管理非结构化数据,通过细化文件系统提高文件处理性能的水平,采用NOSQL数据库技术细化非结构化数据管理并提高管理水平和处理性能的水平。搭建分布式文件系统,统一管理外网投标文件、资质业绩文件等海量外网非结构化数据。

●规范运维管理:数据运维管理是系统持续稳定、高效、可靠运行的保障,为提高数据运维管理水平需设计相应的数据运维管理规范。

(2)设计内容结构

数据架构部分的6层设计工作如表1所示。

表1数据架构部分的设计工作内容

其中L1/L2和L3完全遵从DC-CIM规范,是数据架构设计的基础,又是数据架构设计所遵从的规范。数据设计内容主要有两部分组成。

●数据模型部分:主要以概念模型设计,逻辑模型设计,物理模型设计以及数据字典编制和模型的管理规范为主要结构进行全面充分的设计。以业务分析和DCMP模型分析为基础,并遵照DC-CIM规范开展模型设计工作。首先开始逻辑模型设计,并通过逻辑模型设计提炼出业务词典和数据中英文的命名规范,完成逻辑模型设计后就开展物理模型设计,在物理模型设计过程中补充数据字典中标准数据类型定义和数据取值范围定义。

●数据部署架构:在逻辑模型和物理模型设计的基础上完成数据部署架构设计,交付数据部署架构设计文档,数据部署架构设计包括结构化数据部署架构和非结构化部署架构两部分。

(3)设计成果结构

数据架构设计的具体设计成果结果如表2所示。

表2数据架构设计

2.数据管理

(1)数据生命周期管理

数据生命周期管理是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从创建到初始存储,最后被删除。它对数据管理而言是一种信息技术战略和理念,而不仅仅是一个产品或方案。信息化建设中最关键的是数据,数据代表着信息,它可以构成企业的核心竞争力。

(2)数据质量管理

数据质量通常被界定为一个整理信息的过程,是一个组织的数据的准确性的反映,好的数据质量意味着一个组织的数据是准确的、完整的、一致的、及时的、独立和有效的。数据的质量越好,就越能清晰地反映一个组织不同系统、不同部门和不用业务线的精确的完整状况。高质量的数据应该有如下特性:一是完整性,完整性指的是数据信息是否存在缺失的情况;二是准确性,准确性是指数据记录的信息是否存在异常或错误;三是一致性,源系统之间同一数据是否一致;四是逻辑合理性,主要从业务逻辑的角度判断数据是否正确;五是时效性,经营决策依据的数据应该是及时、准确、全面、有意义地反映当前的运营情况。

(3)数据源管理

管理好数据源是维护关键数据正确性的一种手段,能够保障数据只能通过一个系统进行修改。从数据维护看可以分为数据拥有者和数据维护者两种管理类型。

(4)数据集成管理

将不同的数据源将数据组合起来需要各种集成技术的支持,以便访问和解释不同的接口、结构和数据类型。企业需要提供统一的数据集成平台,帮助企业访问、转换和集成各种各样系统中的数据,并将这些信息传递到MDM或DW中。数据集成平台可提供企业所需的主要功能,使其能访问、集成、迁移和合并主数据,从而降低复杂性、确保一致性,并推动业务发展。

数据获取是数据集成的首要步骤,数据集成同时也完成数据对外提供的功能。数据获取通常采用两个过程来实现:

●面向初始数据的获取方式建议采用标准化格式文件的方式提供,获取后直接进行数据的导入,应允许访问各种结构化、非结构化和半结构化数据格式(包括Excel、Word、PDF等格式的文件)。

●面向增量数据的获取方式通常有两种:实时模式和定时模式。

(5)数据交换管理:

数据交换指的是在多个数据终端之间为任意两个终端设备建立数据通信、临时互连通路的过程。数据交换是先整合数据,然后分发数据,可以确保交换数据的质量。其中的技术包括事件系统的触发器机制、实时同步或异步事件。

(6)数据存储管理

备份和归档对数据存储来说是关键的问题。本平台数据采用软件加存储阵列的方式,数据不仅保存在大容量磁盘阵列中,同时备份到系统配置的磁带库中。

(7)数据安全设计

数据安全设计可以考虑用区块链方式,建立零信任关系,保证数据安全可靠。

(六)服务能力设计

面向企业园区的服务能力设计主要采用可视化图形为企业用户、政府部门展示园区碳排放量、园区碳减排量、园区能耗量、园区参与国家核证自愿减排量(CCER)的情况、园区参与绿证交易情况、园区新能源发电情况、园区绿电使用情况等数据指标。同时展示企业参与碳减排的情况和不同园区的碳减排排名,可切换查看不同园区监测情况。

面向社会用户的服务能力设计主要采用可视化图形展示社会用户碳排放量、碳减排量、区能耗量、参与CCER情况、绿证交易情况、新能源发电情况、绿电消费情况等数据指标。

四、双碳数字化监测服务平台建设策略

“双碳”是一场长期而深刻的社会变革,在起步阶段,亟须建立完善的基础设施。在加快建设“双碳”数字化监测服务平台过程中,需要做好以下几方面工作。

第三,确保平台安全可靠性。“双碳”数字化监测服务平台建设的关键点在于最大限度地保障应用安全、可靠和稳定运行。同时,在确保应用安全、可靠和稳定运行的前提下,尽量使架构简洁,为企业节约成本。

第四,强化与已有数字政府平台的融合。许多地方政府已经建立了比较成熟的数字政府平台体系,并将很多业务内容做了集成。建设“双碳”数字化监测服务平台可根据各地实际,既可以采取单独建立平台的方式,也可以采取在已有数字政府平台系统中仅新增加“双碳”模块的方式。在平台设计规划和开发建设过程中尽可能做到平台系统间开发标准、接口等要素统一,便于平台间的打通和后续的集成。

THE END
1.非结构化数据的处理技术和应用文本分析是非结构化数据处理的一种重要技术,可用于从文本数据中提取有用的信息和知识。文本分析可以分为三个步骤:文本预处理、特征提取和建模分析。文本预处理包括分词、去除停用词、文本归一化等步骤;特征提取包括词袋模型、TF-IDF等方法;建模分析包括聚类、分类、情感分析等方法。文本分析的应用场景包括社交媒体的舆情https://wenku.baidu.com/view/fea50c8f00d8ce2f0066f5335a8102d276a261e8.html
2.大数据时代的非结构化数据处理技术图像识别和视频分析技术是非结构化数据处理中不可或缺的一部分。得益于深度学习模型的快速发展,图像和视频分析技术能够从海量的视觉数据中自动提取关键特征,如物体识别、场景分类、动作分析等。 在安全监控领域,视频分析技术可以自动识别异常事件,减少人工监控的成本和误差。此外,在制造业,图像识别技术被广泛应用于产品质https://www.gokuai.com/press/a1165
3.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
4.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象随着银行业IT技术的快速发展和业务的不断升级变革,业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模也越来越大,银行业非结构化数据呈指数式爆发式增长。目前使用非结构化数据的主要系统包括内容管理平台、后督影像系统、身份验证、柜员办业务扫描件等需要用到影像图片,以及呼叫中心系统、电话客服的https://redhat.talkwithtrend.com/Article/242823
5.人工智能技术在群聊类数据分析中的探索5.其他非结构化数据 如表情符号、红包等,也是群聊中常见的交流形式。 二、人工智能技术应用 为了有效处理群聊数据的碎片化、多样化等特性,人工智能技术发挥了重要作用,主要包括: 1.自然语言处理 通过NLP技术,我们能够对群聊中的文字数据进行多种处理,包括分词、词性标注、命名实体识别等。这些处理步骤可以帮助我们更好http://www.51testing.com/mobile/view.php?itemid=7800371
6.大数据金融第二章大数据相关技术首先是利用多种轻型数据库收集海量数据,对不同来源的数据进行预处理后,整合存储到大型数据库中,然后根据企业或个人目的和需求,运用合适的数据挖掘技术提取有益的知识,最后利用恰当的方式将结果展现给终端用户。 数据处理流程 一 数据采集 大数据的采集是指在确定用户目标的基础上,对该范围内的所有结构化、半结构化、https://www.jianshu.com/p/d68251554c66
7.Top前沿:农业和应用经济学中的机器学习,其与计量经济学的比较然后,确定了当前计量经济学和模拟模型工具箱在应用经济学方面的局限性,并探索了机器学习法提供的潜在解决方案。在预测和因果分析中,深入研究了不灵活的函数形式、非结构化数据源和大量解释性变量等情况,并强调了复杂模拟模型的挑战。最后,作者认为,当用于定量经济分析时,经济学家在解决机器学习法的缺点方面有着至关https://blog.51cto.com/u_15057855/2675591
8.互联网成数据宝库,网络数据采集技术推动人工智能发展官网互联网数据量呈指数式增长,非结构化数据的应用依赖于清洗标注 PC、互联网、消费级移动设备的兴起宣告了数据时代的来临,数据量呈指数式增长,据IDC统计,全球每年生产的数据量将从2016年的16. 1ZB猛增至2025年的163ZB,其中80%-90%是非结构化数据。过去计算机主要处理结构化数据,人工智能模型却以处理非结构化数据见长https://www.tanmer.com/blog/575
9.2022年度陕西省重点研发计划项目申报指南目录4.9 大规模非结构化网格并行剖分技术研究 4.10 大流量高温燃油调节方法及调节器设计关键技术 5.新一代通信技术 5.1 空地一体化网络立体致密多维覆盖技术 5.2 面向天地一体化大规模星座的网络化测控关键技术 5.3 新型天线形态下基于大规模 MIMO 的机载数据高速传输技术 http://www.kt180.com/html/sxs/9889.html
10.中信证券非结构化数据处理平台建设实践中信证券综合应用OCR、NLP、RPA、搜索引擎、知识图谱等AI技术,在非结构化数据识别解析、自然语言理解与结构化处理、非结构化知识存储与检索等方面,开展公司级非结构化数据处理平台建设。 作者 中信证券股份有限公司信息技术中心 岳丰 王哲 刘殊玥 余怡然 方兴 https://www.secrss.com/articles/53891
11.行政管理论文15篇工商行政管理工作想要顺应时代的潮流,跟上社会发展的步伐,就必须将现代的大数据技术应用的到工商行政管理工作中,以此来提高工作效率,更好地对企业进行监督管理,助推企业的规范化稳定快速发展。 2大数据技术概述 大数据技术是在庞大的数据信息资源中进行分析、处理和检索等过程,提取出对当前工作最有利用价值的信息资源。https://www.ruiwen.com/lunwen/6220159.html
12.科学网—[转载]武新:大数据架构及行业大数据应用所谓的“大数据应用”主要是对各类数据进行整理、交叉分析、比对,对数据进行深度挖掘,对用户提供自助的即席、迭代分析能力。还有一类就是对非结构化数据的特征提取(指纹、图像、语音自动识别、基因数据比对等),以及半结构化数据的内容检索(搜索)、理解(语义分析)等。传统数据库对这类需求和应用无论在技术上还是功能上https://blog.sciencenet.cn/blog-887780-1358813.html
13.什么是数据转换,数据转换的知识介绍图像数据转换:图像数据转换包括图像格式转换、大小调整、色彩空间转换等,广泛应用于图像处理、计算机视觉等领域。 3.数据转换分类 结构化数据与非结构化数据转换 结构化数据:指具有明确定义格式和字段的数据,如数据库表格中的数据。结构化数据转换通常涉及数据表连接、聚合、筛选等操作。 https://www.eefocus.com/baike/1694420.html
14.Python实战:非结构化数据分析非结构化数据处理在当今大数据时代,非结构化数据无处不在,包括社交媒体、电子邮件、网络日志、视频监控数据等。Python作为一种强大的编程语言,提供了丰富的库和框架,用于处理和分析非结构化数据。本文将详细介绍Python在非结构化数据分析中的关键技术,并通过具体代码示例展示如何应用这些技术。https://blog.csdn.net/oandy0/article/details/137567962
15.AnyShare内容数据湖:海量非结构化数据存储与处理的基石·海量非结构化数据难以描述,难以形成结构化的属性信息以提升识别、理解、查找、利用效率 业务系统的文档属性统一管理 ·业务系统孤岛为企业带来统一管理、搜索、整合难题,业务流程打通需要元数据管理能力支撑 海量数据的文档属性访问压力 ·非结构化数据的暴增和丰富的业务应用将带来内容元数据的增长和访问压力,元数据服务https://www.aishu.cn/cn/feature/content-lake