数据治理体系之二

“很多刚进入数据行业的从业者对于元数据经常会存在理解不了,或者不知道是什么的现象,本文简单从什么是元数据,元数据的定义,元数据的作用,元数据管理的功能,以及元数据在数据治理中的意义进行介绍元数据”

元数据是指描述数据的数据,它包含有关数据的各种属性和特征的信息。在DAMA(数据管理协会)中,元数据的定义是指一组结构化信息,用于描述和管理数据资源。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理来说是不可或缺的。它有助于处理、维护、集成、保护和治理其他数据。

通过准确、一致和完整的元数据管理,组织可以更好地管理和控制数据资产,提高数据的可信度和可用性,从而支持业务决策和创新。

看这个定义,元数据是什么还是相对比较抽象,下面进行详细的说明。

01什么是元数据

前面已经结束了元数据的定义,下面我们以一个详细的示例来说明什么是元数据。

例如:一张人员信息PersonnelInformation,里面包含字段:ID、Name、EnglishName、Gender、Contact、Post.那么我们在数据库中看到的数据是这样的。

对于这样一张表,我们需要了解这张表的数据就一定需要了解这个表的元数据,那么元数据是什么了

元数据包含业务元数据、技术元数据(包含操作元数据)、管理元数据三种类型。下面详细介绍元数据的三类元数据信息:

一、业务元数据

1)数据集、表和字段的定义和描述,例如表的描述、字段描述属性。

2)业务规则、转换规则、计算公式和推导公式,例如指标字段的计算公式,转换规则等。

3)数据模型(概念模型、逻辑模型),在模型设计阶段中的逻辑模型等。

4)数据质量规则和检核结果,例如对某个字段的质量检查规则。

5)数据标准,例如对某个字段的数据标准。

6)数据的安全/隐私级别。

二、技术元数据

技术元数据(TechnicalMetadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。技术元数据示例包括:

1)物理数据库表名和字段名。

2)字段属性。

3)数据库对象的属性。

4)访问权限。

5)数据CRUD(增、删、改、查)规则。

6)物理数据模型,包括数据表名、键和索引。

7)ETL作业详细信息。

8)文件格式模式定义。

9)数据溯源和数据血缘,包括上游和下游变更影响的信息。

10)周期作业(内容更新)的调度计划和依赖。

11)恢复和备份规则。

12)数据访问的权限、组、角色。

操作元数据

操作元数据(OperationalMetadata)描述了处理和访问数据的细节,例如:

1)批处理程序的作业执行日志。

2)抽取历史和结果。

3)调度异常处理。

4)审计、平衡、控制度量的结果。

5)错误日志。

8)备份、保留、创建日期、灾备恢复预案。

10)容量和使用模式。

12)清洗标准。

13)数据共享规则和协议。

14)技术人员的角色、职责和联系信息。

三、管理元数据

管理元数据是指元数据属性中的管理属性,例如数据所属权,数据所有者,数据拥有部门等属性。表明数据管理权限等。

2)数据所有权属性(如数据所有权部门、数据所有者)。

那么针对上面那个例子,我们详细列一下该表的业务元数据、技术元数据、管理元数据信息。

元数据管理的元数据模型信息具体根据实际使用需要参照以上的列出来的类别进行添加。以上就是元数据的模型,根据这个模型,建立元数据采集任务,将这些信息采集进入表中进行管理,即完成元数据采集的任务。

02非结构化数据的元数据

非结构化数据的元数据包括以下内容:

这些元数据的存在对于非结构化数据的有效管理至关重要。

非结构化数据的元数据主要应用对象是数据湖的数据,数据挖掘和数据科学家需要对数据探索的时候,需要通过元数据找到需要的数据,以及其他元数据定位到自己需要找到的数据,主要能通过元数据进行搜索和定位的能力。

03、元数据的作用

元数据的作用在数据管理中的重要性毋庸置疑,主要体现在三个方面。

一、数据的解读和理解

完善的元数据让数据可以被解读、被理解,进而才能被管理、被使用。

二、元数据目录是提供数据管理的依据

通过收集和维护元数据,我们可以构建一个元数据目录。在这个元数据目录中,记录了企业的数据及其详细描述信息。元数据目录是数据资产管理和数据共享的基石,也是校验数据质量、制定数据安全策略和建立资产目录的依据。同时,元数据的补充还包括数据安全等级和安全策略等重要信息。

例如我们建立数据资产目录是依据元数据建立的。

例如我们建立服务市场和数据资产市场是依据元数据建立的。

三、数据开发过程中排查问题的依据

综上所述,元数据是大数据管理和治理以及开发的基础,没有这个基础,其他上层的工作都无法开展。

04元数据的管理功能

元数据管理的功能主要包含:元模型管理功能、元数据采集,元数据维护、元数据列表、任务监控五个功能。

元模型管理功能,可以自定义选择元数据采集的元数据项,不同公司可以根据当前使用需求,对元数据采集的任务项进行增删修改,自定义可视化修改元模型。

元数据采集,根据定义的元数据模型,添加采集任务,需要采集哪些库,哪些表的元数据信息呢,新建采集任务之后,由调度系统进行调度执行,更新元数据。

元数据维护,采集元数据有时候存在漏采,错采等情形,提供维护页面对采集的元数据进行修改。

元数据列表,采集元数据以业务维度、技术维度、管理维度、安全维度展示,同时管理采集的元数据版本,可以对比不同版本发生的变更。

任务监控,则是对创建的元数据采集任务进行监控,可以重新启动,或者立即执行,了解采集任务的采集成功或者失败情况。

THE END
1.理解数据类型:每个数据科学爱好者都应该知道的数据结构现在的大量数据中,大部分是非结构化的,即没有预定义模型/结构的数据。如图像,是像素的集合,文本数据是没有预定义储存模型的字符序列,以及用户在Web应用程序上操作的点击流。非结构化数据所需要处理的地方在于,需要通过预处理等方法转化为结构化数据,以便对结构化数据应用统计方法获取原始数据中的重要信息。 https://www.528045.com/article/d32b356ce2.html
2.四不像正版资料,构建解答解释落实m418.39.40看点一、构建“四不像”数据的框架 我们需要明确“四不像”数据的定义,所谓“四不像”,指的是那些既不符合常规数据类型,又难以用传统方法进行分类和分析的数据,这类数据通常具有以下特点: 1、多样性:数据来源广泛,包括文本、图像、音频、视频等多种格式。 2、复杂性:数据结构复杂,可能包含嵌套结构、多维数组等。 https://www.yzcjl.cn/post/5569.html
3.非结构化数据包括哪些内容即超文本标记语言文件。超文本标记语言的结构包括头部分(Head)、和主体部分(Body)。报表 报表就是用表格、图表等格式来动态显示数据。音频 指存储声音内容的文件。视频 泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术。非结构化数据主要是指那些无法用固定结构来逻辑表达实现的https://baijiahao.baidu.com/s?id=1751523632293431932&wfr=spider&for=pc
4.什么是非结构化数据和结构化数据没有预定义的格式:非结构化数据的存储形式非常灵活,没有固定的行和列。 多样性:可以包括文本文件、PDF 文档、图片、视频、社交媒体数据等。 复杂的处理方式:处理非结构化数据需要使用更复杂的技术,如自然语言处理(NLP)或图像识别技术。 无法直接使用传统数据库存储:非结构化数据通常存储在文件系统或分布式存储系统中https://zhuanlan.zhihu.com/p/718480499
5.为什么我们称文本为“非结构化”?为什么计算机对结构化和非结构化的定义会有所不同? 该计算机可以处理结构化数据,而非非结构化数据,计算机希望数据整齐,整齐地堆在一起,称为记录,每个记录都有一个键和其他属性,一旦将数据组织成结构化格式,计算机就会加快速度,就像子弹穿过机枪一样,如果没有子弹则机枪卡住。 https://www.chinacpda.com/data/detail/?id=1951
6.什么是非结构化数据?非结构化数据定义 我们所处理的数据分为三类,分别是规格化数据、半结构化数据以及非结构化数据,其中非结构化数据的定义为:呈现出不规则且无明显结构特征的数据。 -规格化数据:数据与字段相对应,数据以表格和数据集形式存在。 -半结构化数据:这种数据形态介于规格化数据和非结构化数据之间,方法是结合不明晰的规则来补足https://www.filez.com/news/detail/faee08ab6bdc85c2d6216e4773bcc01f.html
7.什么是结构化半结构化和非结构化数据?①结构化数据:指关系模型数据,即以关系数据库表形式管理的数据,结合到典型场景中更容易理解,比如企业ERP、OA、HR里的数据。 ②非结构化数据:指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。 https://it.ynnu.edu.cn/info/1054/2898.htm
8.复杂高维多元数据的可视化高维多元数据(Multidimensional常规的关系型数据库处理具有明确结构、可有效存储于二维数据库表中的结构化数据。 非结构化数据(文本、时间、日志等)无法采用这种形式表示。 非结构化数据不但大量存在, 而且蕴涵巨大价值。 异构数据 异构数据指同一个数据集中存在结构或者属性不同的数据的情况。 https://juejin.cn/post/6922364405111848967
9.非结构化的数据库51CTO博客已为您找到关于非结构化的数据库的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及非结构化的数据库问答内容。更多非结构化的数据库相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。https://blog.51cto.com/topic/feijiegouhuadeshujuku.html
10.数据概念的解构与数据法律制度的构建数据资源市场化,涵盖各种数据的各种状态,例如,个人数据和非个人数据、结构化数据和非结构化数据,等等;数据处理行为的产业化,就是推动数据的收集、存储、使用、加工、传输、提供、公开以及删除等数据处理行为的产业化。数据资源市场化和数据处理行为产业化,需要数据法律制度予以规范和引导,以进一步提高数据质量、提高数据http://www.legaldaily.com.cn/fxjy/content/2023-02/22/content_8824664.html
11.结构化与非结构化的区别多源异构数据源半结构化数据①结构化数据:指关系模型数据,即以关系数据库表形式管理的数据,结合到典型场景中更容易理解,比如企业ERP、OA、HR里的数据。 ②非结构化数据:指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。 https://www.fanruan.com/bw/doc/154297
12.非结构化数据(UnstructuredData)数据采集名词数据库和CMS 2023-10-26 11:15:48 浏览6865 次 摘要:非结构化数据是指那些没有明确定义格式或结构的数据,通常以自由文本、多媒体内容、社交媒体帖子、图像、音频和视频等形式存在。与结构化数据(如数据库表)不同,非结构化数据的组织和解释通常需要更多的上下文和语境。 https://www.houyicaiji.com/?type=post&pid=12136
13.《华为数据之道》读书笔记:第5章面向“联接共享”的数据底座建设华为公司通过建设数据底座,将公司内外部的数据汇聚在一起,对数据进行重新组织和联接,让数据有清晰的定义和统一的结构,并在尊重数据安全与隐私的前提下,让数据更易获取,最终打破数据孤岛和垄断。 ? 通过数据底座,主要可以实现如下目标: 1)统一管理结构化、非结构化数据。将数据视为资产,能够追溯数据的产生者、业务https://xie.infoq.cn/article/ca685bfdce0341b1280fb71b0
14.《DAMADMBOK2》读书笔记第9章文件和内容管理非结构化数据的增长速度远远快于结构化数据。管理非结构化数据需要数据管理专员与其他数据管理专业人员、档案管理人员的有效合作。P258 定义高质量的内容需要了解它生产和使用的背景: 1)生产者。谁创建内容?为什么要创建? 2)消费者。谁使用信息?出于什么目的? 3)时间。何时需要信息?需要多久https://www.jianshu.com/p/fa34d269374b
15.银行专岗计算机考试大纲(三)大数据的结构类型 大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC(互联网内容提供商)的调查报告显示,企业中80%的数据都是非结构化数据。 1.结构化数据 包括预定义的数据类型、格式和结构的数据。如:关系数据库中的数据。 2.半结构化数据 具有可识别的模式并可以解析http://www.yinhangzhaopin.com/yhks/yhbs/1/96117.html
16.[经典收藏]终极RPA术语表:机器人流程自动化的基础概念非结构化数据 【Unstructured Data】 未按照定义好的结构来组织的信息,包括文本、日期和数字在未组织的系统中。 虚拟环境 【Virtual Environment】 由自动化软件和程序创建的系统,用于在公司现有的IT设置中管理组织的流程。该环境由公司控制,并为管理员和用户创建一个中央软件中心。 https://blog.itpub.net/69948333/viewspace-2687461/
17.取其精华!设计师读书笔记连载系列之《简约至上》优设网让用户定义自己的成功很重要,我们要做的,就是为他提供一个简单的工具,让他们能自由发挥想象力,最终版他们实现目标。 5、非结构化数据 系统要求用户输入信息:2016-04-06,当你少输入一个数字或者输入错误时,就会提示你。向用户转移用在这里并不合适,用户非常反感强制性的做法。如果你能仅仅让用户输入:明天,本周五https://www.uisdc.com/note-for-simple-and-usable
18.《简约至上》三千字总结(简约至上)书评核心用户体验设计应该简约,“简约至上”指的让用户感觉用起来简单。为什么应该简约?复杂的产品不可持续。不断向软件中增加功能,同样也是不可持续的。增加复杂性意味着遗留代码越来越沉重,导致产品维护成本越来越高,而且也越来越难以灵活应对市场变化。怎样做到简约?一、明确认识1. 为主流用户设计产品,忽略专家型用户。https://book.douban.com/review/13806006/