数据治理体系之二

“很多刚进入数据行业的从业者对于元数据经常会存在理解不了,或者不知道是什么的现象,本文简单从什么是元数据,元数据的定义,元数据的作用,元数据管理的功能,以及元数据在数据治理中的意义进行介绍元数据”

元数据是指描述数据的数据,它包含有关数据的各种属性和特征的信息。在DAMA(数据管理协会)中,元数据的定义是指一组结构化信息,用于描述和管理数据资源。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理来说是不可或缺的。它有助于处理、维护、集成、保护和治理其他数据。

通过准确、一致和完整的元数据管理,组织可以更好地管理和控制数据资产,提高数据的可信度和可用性,从而支持业务决策和创新。

看这个定义,元数据是什么还是相对比较抽象,下面进行详细的说明。

01什么是元数据

前面已经结束了元数据的定义,下面我们以一个详细的示例来说明什么是元数据。

例如:一张人员信息PersonnelInformation,里面包含字段:ID、Name、EnglishName、Gender、Contact、Post.那么我们在数据库中看到的数据是这样的。

对于这样一张表,我们需要了解这张表的数据就一定需要了解这个表的元数据,那么元数据是什么了

元数据包含业务元数据、技术元数据(包含操作元数据)、管理元数据三种类型。下面详细介绍元数据的三类元数据信息:

一、业务元数据

1)数据集、表和字段的定义和描述,例如表的描述、字段描述属性。

2)业务规则、转换规则、计算公式和推导公式,例如指标字段的计算公式,转换规则等。

3)数据模型(概念模型、逻辑模型),在模型设计阶段中的逻辑模型等。

4)数据质量规则和检核结果,例如对某个字段的质量检查规则。

5)数据标准,例如对某个字段的数据标准。

6)数据的安全/隐私级别。

二、技术元数据

技术元数据(TechnicalMetadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。技术元数据示例包括:

1)物理数据库表名和字段名。

2)字段属性。

3)数据库对象的属性。

4)访问权限。

5)数据CRUD(增、删、改、查)规则。

6)物理数据模型,包括数据表名、键和索引。

7)ETL作业详细信息。

8)文件格式模式定义。

9)数据溯源和数据血缘,包括上游和下游变更影响的信息。

10)周期作业(内容更新)的调度计划和依赖。

11)恢复和备份规则。

12)数据访问的权限、组、角色。

操作元数据

操作元数据(OperationalMetadata)描述了处理和访问数据的细节,例如:

1)批处理程序的作业执行日志。

2)抽取历史和结果。

3)调度异常处理。

4)审计、平衡、控制度量的结果。

5)错误日志。

8)备份、保留、创建日期、灾备恢复预案。

10)容量和使用模式。

12)清洗标准。

13)数据共享规则和协议。

14)技术人员的角色、职责和联系信息。

三、管理元数据

管理元数据是指元数据属性中的管理属性,例如数据所属权,数据所有者,数据拥有部门等属性。表明数据管理权限等。

2)数据所有权属性(如数据所有权部门、数据所有者)。

那么针对上面那个例子,我们详细列一下该表的业务元数据、技术元数据、管理元数据信息。

元数据管理的元数据模型信息具体根据实际使用需要参照以上的列出来的类别进行添加。以上就是元数据的模型,根据这个模型,建立元数据采集任务,将这些信息采集进入表中进行管理,即完成元数据采集的任务。

02非结构化数据的元数据

非结构化数据的元数据包括以下内容:

这些元数据的存在对于非结构化数据的有效管理至关重要。

非结构化数据的元数据主要应用对象是数据湖的数据,数据挖掘和数据科学家需要对数据探索的时候,需要通过元数据找到需要的数据,以及其他元数据定位到自己需要找到的数据,主要能通过元数据进行搜索和定位的能力。

03、元数据的作用

元数据的作用在数据管理中的重要性毋庸置疑,主要体现在三个方面。

一、数据的解读和理解

完善的元数据让数据可以被解读、被理解,进而才能被管理、被使用。

二、元数据目录是提供数据管理的依据

通过收集和维护元数据,我们可以构建一个元数据目录。在这个元数据目录中,记录了企业的数据及其详细描述信息。元数据目录是数据资产管理和数据共享的基石,也是校验数据质量、制定数据安全策略和建立资产目录的依据。同时,元数据的补充还包括数据安全等级和安全策略等重要信息。

例如我们建立数据资产目录是依据元数据建立的。

例如我们建立服务市场和数据资产市场是依据元数据建立的。

三、数据开发过程中排查问题的依据

综上所述,元数据是大数据管理和治理以及开发的基础,没有这个基础,其他上层的工作都无法开展。

04元数据的管理功能

元数据管理的功能主要包含:元模型管理功能、元数据采集,元数据维护、元数据列表、任务监控五个功能。

元模型管理功能,可以自定义选择元数据采集的元数据项,不同公司可以根据当前使用需求,对元数据采集的任务项进行增删修改,自定义可视化修改元模型。

元数据采集,根据定义的元数据模型,添加采集任务,需要采集哪些库,哪些表的元数据信息呢,新建采集任务之后,由调度系统进行调度执行,更新元数据。

元数据维护,采集元数据有时候存在漏采,错采等情形,提供维护页面对采集的元数据进行修改。

元数据列表,采集元数据以业务维度、技术维度、管理维度、安全维度展示,同时管理采集的元数据版本,可以对比不同版本发生的变更。

任务监控,则是对创建的元数据采集任务进行监控,可以重新启动,或者立即执行,了解采集任务的采集成功或者失败情况。

THE END
1.大数据时代的非结构化数据处理技术随着大数据时代的到来,数据呈现爆发式增长,其中非结构化数据占据了大部分。非结构化数据包括文本、图像、视频、音频、社交媒体内容等,由于其多样性、无规则的格式和分散性,传统的数据处理工具难以应对。为了从这些海量数据中提取价值,非结构化数据处理技术应运而生,成为企业提升效率和竞争力的关键工具。 https://www.gokuai.com/press/a1165
2.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
3.非结构化数据分析技术非结构化数据主要包括6 非结构性数据预处理 非结构化数据是数据结构不规则或者说是不完整,没有预设的数据模型或者结构,不便使用数据库、模型及标准的数据接口表现的数据,包括所有格式的文本、图片、各类报表、图像、音频、视频数据等。 计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据的形式非常多样,标准也具有多样性https://blog.51cto.com/u_16099165/6757640
4.非结构化数据分析为什么要关注欺诈识别和预防领域的非结构化数据分析 // 149 非结构化数据分析的好处 // 153 欺诈领域的非结构化数据分析是什么 // 157 非结构化数据分析如何在欺诈识别和预防中发挥作用 // 159 用于欺诈识别和预防的非结构化数据分析框架:保险 // 162 主要的欺诈识别和预防技术 // 165 使用非结构化数据分析https://baike.baidu.com/item/%E9%9D%9E%E7%BB%93%E6%9E%84%E5%8C%96%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/60021270
5.结构化与非结构化的区别多源异构数据源半结构化数据结构化与非结构化数据的区别?这里有答案!? 当代,高新技术发展迅速,大数据作为新兴潜力股也发展迅猛,人们不断探索数据分析、数据处理以及数据可视化等的深度,那么,活在这个时代的你,对结构化与非结构化数据了解多少?对多源异构数据源又多少了解?下面让我们一起来详细学习一下吧。https://www.fanruan.com/bw/doc/154297
6.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象随着银行业IT技术的快速发展和业务的不断升级变革,业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模也越来越大,银行业非结构化数据呈指数式爆发式增长。目前使用非结构化数据的主要系统包括内容管理平台、后督影像系统、身份验证、柜员办业务扫描件等需要用到影像图片,以及呼叫中心系统、电话客服的https://redhat.talkwithtrend.com/Article/242823
7.探索非结构化数据入湖方式及相关技术的最佳实践数字经济观察网伴随着人工智能的兴起和数据湖的广泛应用,非结构化数据入湖变得尤为重要。非结构化数据,如文本、图像、音频和视频等,包含了丰富的信息,但由于其复杂性和多样性,传统的数据管理和分析方法往往无法充分利用这些数据的潜力。然而,结合人工智能和数据湖的技术和方法,可以有效地处理和分析非结构化数据,从中挖掘出有价值的https://www.szw.org.cn/20230817/62871.html
8.大数据技术原理与应用期末复习知识点全总结(林子雨版内容:随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等 第二阶段:成熟期 时间:21世纪前10年 内容:Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式https://developer.aliyun.com/article/1418435
9.行政管理论文15篇这势必导致学生处理社会现实问题和交往能力的技能很难有所提升,他们的知识结构、能力结构和素质明显存在不平衡,很难适应信息社会高速发展的需要。操作性和实践性教学严重薄弱。虽然目前我国高校《行政管理学》课程内容体系一般都设置了教学实习、实训等实践环节,但由于其时间短、任务重,而且管理松散,缺乏常态化和规范化,https://www.ruiwen.com/lunwen/6220159.html
10.engineering):利用领域知识和现有数据,创造出新的特征,用于具体涵盖了结构化与非结构化、定量与定性数据的区分,数据清洗中的数据对齐、缺失值处理、异常值处理等方法,特征构造中的统计量构造、周期值、数据分桶、特征组合,特征选择的三种形式及多种具体方法,特征变换的标准化、归一化、区间缩放、非线性变换等,还讨论了离散变量处理和降维的多种方法,并在最后进行了总结。https://juejin.cn/post/6874516288149028872
11.“平民化”非结构数据处理腾讯云开发者社区在全球信息产业高速发展的背景下,IDC预测,2018 到 2025 年之间,全球产生的数据量将会从 33 ZB 增长到 175 ZB, 复合增长率27%,其中超过 80%的数据都会是处理难度较大的非结构化数据,如文档、文本、图形、图像、音频、视频等。非结构化数据在大数据时代的重要地位已成为共识。近些年,伴随着大数据存储、人工智能(https://cloud.tencent.com/developer/article/2214210
12.结构化半结构化和非结构化数据都有哪些非结构化数据是指没有预定义数据模型的数据,这使得它难以通过传统的数据库和数据模型进行处理和分析。 举例: 文本文件:如新闻文章、报告、电子邮件正文等。 媒体文件:如图片、音频和视频文件。 社交媒体内容:如微博、博客文章、评论等。 每种数据类型都有其特定的存储、管理和分析技术。在大数据和数据科学领域,处理https://www.jianshu.com/p/7018b1bef624