数据治理体系之二|非结构化数据查询的例子_在线学习

“很多刚进入数据行业的从业者对于元数据经常会存在理解不了，或者不知道是什么的现象，本文简单从什么是元数据，元数据的定义，元数据的作用，元数据管理的功能，以及元数据在数据治理中的意义进行介绍元数据”

元数据是指描述数据的数据，它包含有关数据的各种属性和特征的信息。在DAMA(数据管理协会)中，元数据的定义是指一组结构化信息，用于描述和管理数据资源。它描述了数据本身(如数据库、数据元素、数据模型)，数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施)，数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统和流程，同时帮助用户评估数据质量，对数据库与其他应用程序的管理来说是不可或缺的。它有助于处理、维护、集成、保护和治理其他数据。

通过准确、一致和完整的元数据管理，组织可以更好地管理和控制数据资产，提高数据的可信度和可用性，从而支持业务决策和创新。

看这个定义，元数据是什么还是相对比较抽象，下面进行详细的说明。

01什么是元数据

前面已经结束了元数据的定义，下面我们以一个详细的示例来说明什么是元数据。

例如：一张人员信息PersonnelInformation，里面包含字段:ID、Name、EnglishName、Gender、Contact、Post.那么我们在数据库中看到的数据是这样的。

对于这样一张表，我们需要了解这张表的数据就一定需要了解这个表的元数据，那么元数据是什么了

元数据包含业务元数据、技术元数据(包含操作元数据)、管理元数据三种类型。下面详细介绍元数据的三类元数据信息：

一、业务元数据

1)数据集、表和字段的定义和描述，例如表的描述、字段描述属性。

2)业务规则、转换规则、计算公式和推导公式，例如指标字段的计算公式，转换规则等。

3)数据模型(概念模型、逻辑模型)，在模型设计阶段中的逻辑模型等。

4)数据质量规则和检核结果，例如对某个字段的质量检查规则。

5)数据标准，例如对某个字段的数据标准。

6)数据的安全/隐私级别。

二、技术元数据

技术元数据(TechnicalMetadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。技术元数据示例包括：

1)物理数据库表名和字段名。

2)字段属性。

3)数据库对象的属性。

4)访问权限。

5)数据CRUD(增、删、改、查)规则。

6)物理数据模型，包括数据表名、键和索引。

7)ETL作业详细信息。

8)文件格式模式定义。

9)数据溯源和数据血缘，包括上游和下游变更影响的信息。

10)周期作业(内容更新)的调度计划和依赖。

11)恢复和备份规则。

12)数据访问的权限、组、角色。

操作元数据

操作元数据(OperationalMetadata)描述了处理和访问数据的细节，例如：

1)批处理程序的作业执行日志。

2)抽取历史和结果。

3)调度异常处理。

4)审计、平衡、控制度量的结果。

5)错误日志。

8)备份、保留、创建日期、灾备恢复预案。

10)容量和使用模式。

12)清洗标准。

13)数据共享规则和协议。

14)技术人员的角色、职责和联系信息。

三、管理元数据

管理元数据是指元数据属性中的管理属性，例如数据所属权，数据所有者，数据拥有部门等属性。表明数据管理权限等。

2)数据所有权属性(如数据所有权部门、数据所有者)。

那么针对上面那个例子，我们详细列一下该表的业务元数据、技术元数据、管理元数据信息。

元数据管理的元数据模型信息具体根据实际使用需要参照以上的列出来的类别进行添加。以上就是元数据的模型，根据这个模型，建立元数据采集任务，将这些信息采集进入表中进行管理，即完成元数据采集的任务。

02非结构化数据的元数据

非结构化数据的元数据包括以下内容：

这些元数据的存在对于非结构化数据的有效管理至关重要。

非结构化数据的元数据主要应用对象是数据湖的数据，数据挖掘和数据科学家需要对数据探索的时候，需要通过元数据找到需要的数据，以及其他元数据定位到自己需要找到的数据，主要能通过元数据进行搜索和定位的能力。

03、元数据的作用

元数据的作用在数据管理中的重要性毋庸置疑，主要体现在三个方面。

一、数据的解读和理解

完善的元数据让数据可以被解读、被理解，进而才能被管理、被使用。

二、元数据目录是提供数据管理的依据

通过收集和维护元数据，我们可以构建一个元数据目录。在这个元数据目录中，记录了企业的数据及其详细描述信息。元数据目录是数据资产管理和数据共享的基石，也是校验数据质量、制定数据安全策略和建立资产目录的依据。同时，元数据的补充还包括数据安全等级和安全策略等重要信息。

例如我们建立数据资产目录是依据元数据建立的。

例如我们建立服务市场和数据资产市场是依据元数据建立的。

三、数据开发过程中排查问题的依据

综上所述，元数据是大数据管理和治理以及开发的基础，没有这个基础，其他上层的工作都无法开展。

04元数据的管理功能

元数据管理的功能主要包含：元模型管理功能、元数据采集，元数据维护、元数据列表、任务监控五个功能。

元模型管理功能，可以自定义选择元数据采集的元数据项，不同公司可以根据当前使用需求，对元数据采集的任务项进行增删修改，自定义可视化修改元模型。

元数据采集，根据定义的元数据模型，添加采集任务，需要采集哪些库，哪些表的元数据信息呢，新建采集任务之后，由调度系统进行调度执行，更新元数据。

元数据维护，采集元数据有时候存在漏采，错采等情形，提供维护页面对采集的元数据进行修改。

元数据列表，采集元数据以业务维度、技术维度、管理维度、安全维度展示，同时管理采集的元数据版本，可以对比不同版本发生的变更。

任务监控，则是对创建的元数据采集任务进行监控，可以重新启动，或者立即执行，了解采集任务的采集成功或者失败情况。

THE END

数据治理体系之二

揭秘！8步让你成为数据分析高手！数据源大模型神经网络

知识图谱：通往精准RAG应用的秘钥

数据统计分析学习范文

3.非结构化数据与结构化数据提取weihu

结构化数据与非结构化数据的差异

什么是非结构化数据–PingCode

研究员成果张宁等企业非结构化文档数据治理探究

如何对非结构化文本数据进行特征工程操作？这里有妙招！雷峰网

OSS数据湖实践——parquet格式

两万字解读：2024年版机器学习AI和数据（MAD）生态全景图谱

数据治理体系之二

EssentialMathforAI(机翻)第二章(1/3)

《基于文档型非关系型数据库的档案数据存储规范》解读法规解读

Solr的工作原理以及全文检索实现原理处理器/DSP

计算机实习报告[精选十篇]