数据治理体系之二

“很多刚进入数据行业的从业者对于元数据经常会存在理解不了,或者不知道是什么的现象,本文简单从什么是元数据,元数据的定义,元数据的作用,元数据管理的功能,以及元数据在数据治理中的意义进行介绍元数据”

元数据是指描述数据的数据,它包含有关数据的各种属性和特征的信息。在DAMA(数据管理协会)中,元数据的定义是指一组结构化信息,用于描述和管理数据资源。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理来说是不可或缺的。它有助于处理、维护、集成、保护和治理其他数据。

通过准确、一致和完整的元数据管理,组织可以更好地管理和控制数据资产,提高数据的可信度和可用性,从而支持业务决策和创新。

看这个定义,元数据是什么还是相对比较抽象,下面进行详细的说明。

01什么是元数据

前面已经结束了元数据的定义,下面我们以一个详细的示例来说明什么是元数据。

例如:一张人员信息PersonnelInformation,里面包含字段:ID、Name、EnglishName、Gender、Contact、Post.那么我们在数据库中看到的数据是这样的。

对于这样一张表,我们需要了解这张表的数据就一定需要了解这个表的元数据,那么元数据是什么了

元数据包含业务元数据、技术元数据(包含操作元数据)、管理元数据三种类型。下面详细介绍元数据的三类元数据信息:

一、业务元数据

1)数据集、表和字段的定义和描述,例如表的描述、字段描述属性。

2)业务规则、转换规则、计算公式和推导公式,例如指标字段的计算公式,转换规则等。

3)数据模型(概念模型、逻辑模型),在模型设计阶段中的逻辑模型等。

4)数据质量规则和检核结果,例如对某个字段的质量检查规则。

5)数据标准,例如对某个字段的数据标准。

6)数据的安全/隐私级别。

二、技术元数据

技术元数据(TechnicalMetadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。技术元数据示例包括:

1)物理数据库表名和字段名。

2)字段属性。

3)数据库对象的属性。

4)访问权限。

5)数据CRUD(增、删、改、查)规则。

6)物理数据模型,包括数据表名、键和索引。

7)ETL作业详细信息。

8)文件格式模式定义。

9)数据溯源和数据血缘,包括上游和下游变更影响的信息。

10)周期作业(内容更新)的调度计划和依赖。

11)恢复和备份规则。

12)数据访问的权限、组、角色。

操作元数据

操作元数据(OperationalMetadata)描述了处理和访问数据的细节,例如:

1)批处理程序的作业执行日志。

2)抽取历史和结果。

3)调度异常处理。

4)审计、平衡、控制度量的结果。

5)错误日志。

8)备份、保留、创建日期、灾备恢复预案。

10)容量和使用模式。

12)清洗标准。

13)数据共享规则和协议。

14)技术人员的角色、职责和联系信息。

三、管理元数据

管理元数据是指元数据属性中的管理属性,例如数据所属权,数据所有者,数据拥有部门等属性。表明数据管理权限等。

2)数据所有权属性(如数据所有权部门、数据所有者)。

那么针对上面那个例子,我们详细列一下该表的业务元数据、技术元数据、管理元数据信息。

元数据管理的元数据模型信息具体根据实际使用需要参照以上的列出来的类别进行添加。以上就是元数据的模型,根据这个模型,建立元数据采集任务,将这些信息采集进入表中进行管理,即完成元数据采集的任务。

02非结构化数据的元数据

非结构化数据的元数据包括以下内容:

这些元数据的存在对于非结构化数据的有效管理至关重要。

非结构化数据的元数据主要应用对象是数据湖的数据,数据挖掘和数据科学家需要对数据探索的时候,需要通过元数据找到需要的数据,以及其他元数据定位到自己需要找到的数据,主要能通过元数据进行搜索和定位的能力。

03、元数据的作用

元数据的作用在数据管理中的重要性毋庸置疑,主要体现在三个方面。

一、数据的解读和理解

完善的元数据让数据可以被解读、被理解,进而才能被管理、被使用。

二、元数据目录是提供数据管理的依据

通过收集和维护元数据,我们可以构建一个元数据目录。在这个元数据目录中,记录了企业的数据及其详细描述信息。元数据目录是数据资产管理和数据共享的基石,也是校验数据质量、制定数据安全策略和建立资产目录的依据。同时,元数据的补充还包括数据安全等级和安全策略等重要信息。

例如我们建立数据资产目录是依据元数据建立的。

例如我们建立服务市场和数据资产市场是依据元数据建立的。

三、数据开发过程中排查问题的依据

综上所述,元数据是大数据管理和治理以及开发的基础,没有这个基础,其他上层的工作都无法开展。

04元数据的管理功能

元数据管理的功能主要包含:元模型管理功能、元数据采集,元数据维护、元数据列表、任务监控五个功能。

元模型管理功能,可以自定义选择元数据采集的元数据项,不同公司可以根据当前使用需求,对元数据采集的任务项进行增删修改,自定义可视化修改元模型。

元数据采集,根据定义的元数据模型,添加采集任务,需要采集哪些库,哪些表的元数据信息呢,新建采集任务之后,由调度系统进行调度执行,更新元数据。

元数据维护,采集元数据有时候存在漏采,错采等情形,提供维护页面对采集的元数据进行修改。

元数据列表,采集元数据以业务维度、技术维度、管理维度、安全维度展示,同时管理采集的元数据版本,可以对比不同版本发生的变更。

任务监控,则是对创建的元数据采集任务进行监控,可以重新启动,或者立即执行,了解采集任务的采集成功或者失败情况。

THE END
1.四不像正版资料,构建解答解释落实m418.39.40看点2、复杂性:数据结构复杂,可能包含嵌套结构、多维数组等。 3、不确定性:数据质量参差不齐,可能存在缺失值、异常值等问题。 4、动态性:数据随时间不断变化,需要实时更新和处理。 针对这些特点,我们需要构建一个灵活且可扩展的数据处理框架,该框架应包括以下几个关键步骤: https://www.yzcjl.cn/post/5569.html
2.非结构化数据包括哪些内容非结构化数据包括哪些内容 在信息技术快速发展的今天,数据已经成为我们生活和工作中不可或缺的一部分。数据大致可以分为结构化数据和非结构化数据两大类。结构化数据主要指的是具有固定格式和结构的数据,如数据库中的表格数据。而非结构化数据,由于其形式多样、结构不固定,一直是数据处理和分析的难点和热点。https://www.zhuflow.cn/news/information/1358.html
3.非结构化数据有哪些而非结构化数据则是指那些不适合存储在传统数据库中的数据,它们通常以文本、图像、音频、视频等形式存在。https://www.gokuai.com/press/a573
4.一文讲透:非结构化数据工具多样性:市面上针对非结构化数据处理的工具和技术种类繁多,选择合适的工具并将其有效整合应用也是一大挑战。 3.8 、数据生命周期管理 数据存档和刑除:非结构化数据的生命周期管理复杂,包括数据的存档、备份和册除。需要制定明确的数据管理策略,确保数据在整个生命周期中的安全和可用性。 https://blog.csdn.net/qingzhumuqingfeng/article/details/144025043
5.非结构化数据库包括哪些内容王利头非结构化数据库包括哪些内容 非结构化数据库:深入探索和用例 引言 非结构化数据库在现代数字世界中扮演着至关重要的角色,处理着大量来自各种来源的数据,从社交媒体帖子到传感器读数。与传统的关系数据库不同,非结构化数据库不使用预定义的模式或架构来组织数据。这为存储和查询大量异构数据提供了更大的灵活性。https://www.wanglitou.cn/article_26670.html
6.非结构化数据包括以下哪些数据的存储非结构化数据包括以下哪些数据的存储()。 A.图片 B.文件 C.XML D.文档 点击查看答案 第2题 大数据在存储方面的特点有:数据量巨大,采用分布式存储,数据类型既包括结构化数据,又包括半结构化和非结构化数据。 点击查看答案 第3题 大数据不仅包括以文本资料为主的结构化数据,还包括网络日志、音频、视频、图片、https://www.shangxueba.cn/wangke/QMDA4HIL.html
7.大数据中非结构化数据的挖掘:文本一、 点击流中的非结构化文本数据都有哪些? 首先来定性什么是非结构化文本数据,这里指的是点击流原始数据中以文字形式展现的数据,包括原始LOG日志以及已经被结构化入库中的部分数据,比如Adobe Analytics的Data Feed,Webtrekk中的Raw Data。当然,有些数据虽然是文本或字符串的形式,但并不是真正意义上的非结构化,比如https://www.51cto.com/article/432085.html
8.大数据的详细定义大数据包括哪些类型:什么是结构化、非结构化和半结构化数据? 根据数据集的结构和建索引的难易程度,数据集通常被分为三类。 三种类型的大数据 结构化数据:这类数据最容易整理和搜索,主要包括财务数据、机器日志和人口统计明细等。结构化数据很好理解,类似于 Excel 电子表格中预定义的行列布局。这种结构下的数据很容易https://blog.itpub.net/70041355/viewspace-3029299/
9.数据湖存储非结构化数据星环科技为您提供数据湖存储非结构化数据相关内容,帮助您快速了解数据湖存储非结构化数据。如果想了解更多数据湖存储非结构化数据资讯,请访问星环科技官网(www.transwarp.cn)查看更多丰富数据湖存储非结构化数据内容。https://www.transwarp.cn/keyword-detail/52484-1
10.大数据一般用什么数据库大数据领域的数据库通常使用开源软件,如Hadoop、Cassandra等,相比于传统的商业关系型数据库,成本更低。 综上所述,大数据领域的数据库相对于传统的关系型数据库,具有更好的可扩展性、高可用性、更快的处理速度、更好的适应非结构化数据和更低的成本等优势。https://www.linkflowtech.com/news/2745
11.数据架构:大数据数据仓库以及DataVault值得注意的是,企业中的大数据包括重复型非结构化数据和非重复型非结构化数据,如图1.1.6所示。 1.1.5 分界线 一开始,对于非结构化数据的两种类型(重复型非结构化数据和非重复型非结构化数据),我们可能认为它们之间的差别是难以预料、微不足道的。实际上,这两种非结构化数据类型之间的差异并非微不足道。因为这两https://www.ituring.com.cn/book/tupubarticle/11854
12.信息公开专栏摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇到https://www.changzhi.gov.cn/xxgkml/zfxxgkml/szfgzbm/czstjj/czsrmzf/tjxx_1188/sjfxhjd/202207/t20220704_2588893.shtml
13.结构化半结构化和非结构化数据都有哪些数据可以根据其格式和可访问性被分类为结构化数据、半结构化数据和非结构化数据。下面是每种数据类型的定义和一些例子: 结构化数据 结构化数据是指遵循固定格式的数据,通常存储在关系数据库中。这种数据类型易于搜索和组织,因为它遵循一定的模式(如表格),每个数据项都有明确的字段。 https://www.jianshu.com/p/7018b1bef624
14.大数据时代的古典文学研究——以数据分析数据挖掘与图像检索为中心首先建模,抽取特征,在训练数据中学习模型参数。当然,训练数据是越多越好。传统的机器学习需要提取特征,然后建立模型学习,“结构化文本”的自身特征恰好具有较为明显的“特征”,所以面对这类文本,数据分析基本可以满足我们的需求。 但大数据往往是“非结构化文本”,提取特征比较困难,加之数据是海量的,人工干预不现实、也http://www.sass.cn/109002/30207.aspx