数据治理体系之二

“很多刚进入数据行业的从业者对于元数据经常会存在理解不了,或者不知道是什么的现象,本文简单从什么是元数据,元数据的定义,元数据的作用,元数据管理的功能,以及元数据在数据治理中的意义进行介绍元数据”

元数据是指描述数据的数据,它包含有关数据的各种属性和特征的信息。在DAMA(数据管理协会)中,元数据的定义是指一组结构化信息,用于描述和管理数据资源。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理来说是不可或缺的。它有助于处理、维护、集成、保护和治理其他数据。

通过准确、一致和完整的元数据管理,组织可以更好地管理和控制数据资产,提高数据的可信度和可用性,从而支持业务决策和创新。

看这个定义,元数据是什么还是相对比较抽象,下面进行详细的说明。

01什么是元数据

前面已经结束了元数据的定义,下面我们以一个详细的示例来说明什么是元数据。

例如:一张人员信息PersonnelInformation,里面包含字段:ID、Name、EnglishName、Gender、Contact、Post.那么我们在数据库中看到的数据是这样的。

对于这样一张表,我们需要了解这张表的数据就一定需要了解这个表的元数据,那么元数据是什么了

元数据包含业务元数据、技术元数据(包含操作元数据)、管理元数据三种类型。下面详细介绍元数据的三类元数据信息:

一、业务元数据

1)数据集、表和字段的定义和描述,例如表的描述、字段描述属性。

2)业务规则、转换规则、计算公式和推导公式,例如指标字段的计算公式,转换规则等。

3)数据模型(概念模型、逻辑模型),在模型设计阶段中的逻辑模型等。

4)数据质量规则和检核结果,例如对某个字段的质量检查规则。

5)数据标准,例如对某个字段的数据标准。

6)数据的安全/隐私级别。

二、技术元数据

技术元数据(TechnicalMetadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。技术元数据示例包括:

1)物理数据库表名和字段名。

2)字段属性。

3)数据库对象的属性。

4)访问权限。

5)数据CRUD(增、删、改、查)规则。

6)物理数据模型,包括数据表名、键和索引。

7)ETL作业详细信息。

8)文件格式模式定义。

9)数据溯源和数据血缘,包括上游和下游变更影响的信息。

10)周期作业(内容更新)的调度计划和依赖。

11)恢复和备份规则。

12)数据访问的权限、组、角色。

操作元数据

操作元数据(OperationalMetadata)描述了处理和访问数据的细节,例如:

1)批处理程序的作业执行日志。

2)抽取历史和结果。

3)调度异常处理。

4)审计、平衡、控制度量的结果。

5)错误日志。

8)备份、保留、创建日期、灾备恢复预案。

10)容量和使用模式。

12)清洗标准。

13)数据共享规则和协议。

14)技术人员的角色、职责和联系信息。

三、管理元数据

管理元数据是指元数据属性中的管理属性,例如数据所属权,数据所有者,数据拥有部门等属性。表明数据管理权限等。

2)数据所有权属性(如数据所有权部门、数据所有者)。

那么针对上面那个例子,我们详细列一下该表的业务元数据、技术元数据、管理元数据信息。

元数据管理的元数据模型信息具体根据实际使用需要参照以上的列出来的类别进行添加。以上就是元数据的模型,根据这个模型,建立元数据采集任务,将这些信息采集进入表中进行管理,即完成元数据采集的任务。

02非结构化数据的元数据

非结构化数据的元数据包括以下内容:

这些元数据的存在对于非结构化数据的有效管理至关重要。

非结构化数据的元数据主要应用对象是数据湖的数据,数据挖掘和数据科学家需要对数据探索的时候,需要通过元数据找到需要的数据,以及其他元数据定位到自己需要找到的数据,主要能通过元数据进行搜索和定位的能力。

03、元数据的作用

元数据的作用在数据管理中的重要性毋庸置疑,主要体现在三个方面。

一、数据的解读和理解

完善的元数据让数据可以被解读、被理解,进而才能被管理、被使用。

二、元数据目录是提供数据管理的依据

通过收集和维护元数据,我们可以构建一个元数据目录。在这个元数据目录中,记录了企业的数据及其详细描述信息。元数据目录是数据资产管理和数据共享的基石,也是校验数据质量、制定数据安全策略和建立资产目录的依据。同时,元数据的补充还包括数据安全等级和安全策略等重要信息。

例如我们建立数据资产目录是依据元数据建立的。

例如我们建立服务市场和数据资产市场是依据元数据建立的。

三、数据开发过程中排查问题的依据

综上所述,元数据是大数据管理和治理以及开发的基础,没有这个基础,其他上层的工作都无法开展。

04元数据的管理功能

元数据管理的功能主要包含:元模型管理功能、元数据采集,元数据维护、元数据列表、任务监控五个功能。

元模型管理功能,可以自定义选择元数据采集的元数据项,不同公司可以根据当前使用需求,对元数据采集的任务项进行增删修改,自定义可视化修改元模型。

元数据采集,根据定义的元数据模型,添加采集任务,需要采集哪些库,哪些表的元数据信息呢,新建采集任务之后,由调度系统进行调度执行,更新元数据。

元数据维护,采集元数据有时候存在漏采,错采等情形,提供维护页面对采集的元数据进行修改。

元数据列表,采集元数据以业务维度、技术维度、管理维度、安全维度展示,同时管理采集的元数据版本,可以对比不同版本发生的变更。

任务监控,则是对创建的元数据采集任务进行监控,可以重新启动,或者立即执行,了解采集任务的采集成功或者失败情况。

THE END
1.结构化非结构和半结构数据非结构化数据治理数据治理(3):结构化、非结构和半结构数据 数据作为数字时代的核心资源,不仅仅是数字的表达,还包括文字、图像、视频等形式。而从数据的组成形态来看,我们可以将数据分为结构化、非结构化和半结构化三种类型。 1结构化数据 结构化的数据是最为常见和熟悉的数据形态,具有固定的字段和类型的数据。这种数据由明确定义的https://blog.csdn.net/u013938578/article/details/135324288
2.非结构化数据怎么治理?最近遇到几个项目,都跟非结构化数据脱不开关系。老彭刚毕业的时候,做的是数据库的活儿,那都是结构化数据。后来有了hadoop技术,可以用来处理物联网、互联网的半结构化数据。真正做非结构化的场景还是比较少的,大多是在项目中选取一两个点给意思意思一下。https://www.niaogebiji.com/article-139650-1.html
3.非结构化数据治理:策略与实践非结构化数据治理:策略与实践 2024/06/26够快云库行业干货 在当今信息时代,非结构化数据已成为企业运营的重要组成部分。据统计,非结构化数据占所有数据量的80%以上,包括文本、图片、音频、视频等多种格式。然而,由于其多样性和复杂性,非结构化数据的管理和治理成为企业面临的重大挑战。本文将探讨非结构化数据治理的https://www.gokuai.com/press/a546
4.非结构化数据治理与数据中台非结构化数据治理与数据中台 在这个数字化时代,数据无处不在,它们构成了我们理解和分析世界的基础。在众多的数据类型中,结构化数据和非结构化数据是最常见的两种形式。 什么是结构化数据? 结构化数据是指那些以固定格式或模式存储的信息,通常可以被快速检索和处理。这类数据最典型的例子就是数据库表格中的信息,例如https://www.zzydjt.cn/article/detail/c40b52cff930a6b96c887aba4a1abb1c
5.电网企业加强非结构化数据治理为业务工作赋能国网大数据中心遵循公司数据发展战略,以充分发挥数据作用、驱动企业数字化转型为目标,按照“基于中台、统筹推进、统一纳管、安全共享”的工作原则,把核心非结构化数据资源汇聚至数据中台,形成全生命周期和全业务系统端到端非结构化数据治理思路,建立从非结构化元数据体系研究与数据资源目录构建到非结构化数据协同治理的工作https://m.bjx.com.cn/mnews/20221122/1270565.shtml
6.全域数据治理:结构化数据非结构化机器数据治理及十大关键全域数据治理的十大关键:组织出于各方面原因采用全域数据治理方式,选取一种有效且适用于组织的治理模型,可以使数 据在访问性、可信度、可理解性及保持活跃度得到提升,将会带来以下十大关键价值: 1、对于监管和法规遵从,全域数据治理能力非常关键 全域数据治理通过建立和遵循数据质量标准,降低了风险以及不正确决策(基于错误https://maimai.cn/article/detail?fid=1742195006&efid=hNFnQfwODTy21xhheMkR6g
7.如何在数字化时代有效管理非结构化数据?本文将探讨在数字化时代有效管理非结构化数据的方法和策略。通过对非结构化数据管理的挑战和需求进行分析,提出了一系列解决方案,包括数据存储、数据安全、数据治理等方面。同时,本文还将介绍一些非结构化数据管理的工具和技术,帮助企业和组织更好地管理和利用非结构化数据。最后,本文将推荐 Filez 企业网盘作为一种有效的https://www.filez.com/news/detail/a404d0026f199851fc7ddf605d7ccd3f.html
8.非结构化数据治理平台构建专属的非结构化数据治理平台,对个人、群组、部门、院级和校级资源提供安全可靠、可拓展的资源治理和服务,实现数字资源的汇聚、管理、哟展示检索和应用,有效解决教学和日常工作中数字资源的资源创建、安全保存、快速查找、便捷分享和数据沉淀等问题。 非结构化数据治理平台解决方案 https://www.uwaysoft.com/official-2/product/CP12.html
9.非结构化数据管理专家基于文件云实同统一文件平台硬件和网络管理、统一存储管理、实现数据存储生命周期管理,大幅度节省投入和运维 07 安全部门 基于文件云实现非结构化数据资产安全治理&统一安全管控 08 软件开发中心 基于文件云非结构化中台内容存储、内容计算、内容安全相关API 二次开发, 大幅度降低应用开发成本 https://www.linkapp.cn/products/42/0
10.大数据的数据治理与应用嘲大数据技术在技术层面、业务层面都有十分重要的应用价值在技术层面:大数据技术可以应用于非结构化数据的分析、挖掘,大量实时监测数据分析等,为管理系统、综合信息平台等建设提供技术支持;在业务层面:大数据技术可以提供辅助决策和科研支持,向管理者提供管理辅助决策、行业监管、绩效考核支持。 https://www.51cto.com/article/680957.html
11.人工智能技术在群聊类数据分析中的探索群聊数据包含的信息形式丰富多样,主要包括文字、语音、图片、视频等非结构化数据。这些数据呈现出碎片化、多样化、即时性强等特点,反映了参与者丰富的交流内容和形式。具体而言,群聊数据的特性包括: 1.文字消息 文字消息是群聊中最常见的形式,包括用户之间的文字交流、表情符号、网页链接等。 http://www.51testing.com/mobile/view.php?itemid=7800371
12.ECM文档云鸿翼产品中心非结构化数据治理体系是构建完善、共享、统一管理非结构化数据环境的基本保障和重要组成部分,是把非结构化作为资产来管理的有效手段。通过确立一系列岗位角色和相应的责任及管理流程,保证了非结构化数据在协作、采集、存储、流转、服务、洞察等应用整合过程中的完整性、准确性、一致性和时效性。 企业进行大数据治理的最http://www.sharesvc.com/index.php?c=show&id=63
13.智慧政府管理系统基于天润智力低代码、中台技术架构,整合政务信息化管理、业务与技术,构建智慧政府信息化运行的新机制、新平台、新模式,推动跨部门协调,提高服务效率,打造数据驱动决策闭环,提升政府现代化治理能力。 立即咨询 智慧党建 1000 + 客户案例总数 600 + 政府客户数 300 + 企业客户数 100 + 行业客户数 解决方案 智慧https://www.cnet99.com/gov/
14.分享文档结构化标注平台的集成实践sylwl09356. 知识图谱构建:通过NLP技术对非结构化数据进行实体识别、关系抽取等操作,构建知识图谱,为智能推荐、决策支持等应用提供数据支撑。 综上所述,航天总体设计单位的数字化建设已取得显著成果,但仍面临非结构化数据治理难度大的挑战。以下内容,笔者将结合在航天总体设计单位的实际非结构化数据处理项目经验,对航天总体单位在https://www.cnblogs.com/lwllwl/p/7530003.html
15.爱数基于银河麒麟操作系统的非结构化数据中台解决方案随着数字化进展的持续推进,非结构化数据剧增,非结构化数据占存储数据总量的 80%,占业务数据增长量的90%,并且呈现出巨量、分散、异构的特征,管理难度巨大。如果按传统信息化建设的方式,都难以形成有效的数据整合、治理以及复用数据能力驱动业务,因此对非结构化数据而言,建设业务、数据、技术为一体的融合式中台是最佳方案https://www.kylinos.cn/index.php/solution/industry/common/data/240.html
16.《DAMADMBOK2》读书笔记第9章文件和内容管理信息治理参考模型 IGRM:展示信息治理与其他信息功能的关系。P258 见下图 非结构化数据的增长速度远远快于结构化数据。管理非结构化数据需要数据管理专员与其他数据管理专业人员、档案管理人员的有效合作。P258 定义高质量的内容需要了解它生产和使用的背景: 1)生产者。https://www.jianshu.com/p/fa34d269374b
17.大数据时代企业须打好信息资源整合攻坚战近年来,企业产生的数据量呈指数级增长,信息资源爆炸式激增,其中非结构化的数据信息达到85%左右,传统的信息资源管理技术已经无法应对大数据时代的挑战。大数据技术和其他大数据工具与设备的出现,以及云计算数据处理与应用模式的广泛运用,为企业处理日益增长的海量非结构化数据提供了高效、可扩展的低成本解决方案,弥补了传统https://yichun.dbw.cn/system/2015/08/13/056748038.shtml
18.1.5分钟DataWorks产品入门学习笔记4、非结构化存储 OSS、FTP、多媒体文件 5、NoSql HBase、OTS、MongoDB 六、DataWorks 全链路数据开发平台 针对不同的引擎有不同的 Studio,Studio 中有非常多好用的功能帮助完成全链路数据开发,通过数据服务对接大屏或者AI报表系统。 七、DataWorks 离线数据开发-Data Studio 在数据开发中,核心是离线数据开发,Datahttps://developer.aliyun.com/article/1077369
19.武平县公安局第九期公共安全视频监控建设项目货物类采购项目附件根据实际需求,本期规划新建带微卡及结构化高清摄像机,在满足传统道路监控需要的同时,同时具备机动车、非机动车的抓拍和信息提取,主要用于城市道路等治安点及重点治安地段的全天候实时监测与记录,结合高清摄像机的高清晰图片特性,使抓拍效果得到质的提升;本期规划新建高清治安卡口点,该系统是一种标准的智能治安卡口系统,http://zfcg.longyan.gov.cn/upload/document/20211027/8f239fdf66564012af5845ec4fa0aa9b.html
20.行政管理论文15篇3.2对非结构化和半结构化数据的采集与应用 缺乏技术支撑像图像摘要技术、互联网搜索拦截技术、图像识别技术、磁盘恢复与解密技术、数字认证技术等非结构化和半结构化的应用和数据,在工商系统既无采集也无积累。由于没有充足完整的数据信息量做支撑,工商信息化还处于相对简单和小规模的阶段,依托海量数据或大数据的深度挖https://www.ruiwen.com/lunwen/6220159.html
21.海康威视:2023年年度报告股票频道智能物联领域存在大量的非结构化数据,数据规模巨大、信息密度低。 为此,海康威视从数据采集、数据存储、数据处理、数据分析、数据治 理、数据安全、数据应用等相关大数据技术维度入手,逐步夯实大数据 基础架构,建立起一整套完善的大数据技术体系,以更好实现智能物联 https://stock.stockstar.com/notice/SN2024041900050978.shtml