数据治理体系之二

“很多刚进入数据行业的从业者对于元数据经常会存在理解不了,或者不知道是什么的现象,本文简单从什么是元数据,元数据的定义,元数据的作用,元数据管理的功能,以及元数据在数据治理中的意义进行介绍元数据”

元数据是指描述数据的数据,它包含有关数据的各种属性和特征的信息。在DAMA(数据管理协会)中,元数据的定义是指一组结构化信息,用于描述和管理数据资源。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理来说是不可或缺的。它有助于处理、维护、集成、保护和治理其他数据。

通过准确、一致和完整的元数据管理,组织可以更好地管理和控制数据资产,提高数据的可信度和可用性,从而支持业务决策和创新。

看这个定义,元数据是什么还是相对比较抽象,下面进行详细的说明。

01什么是元数据

前面已经结束了元数据的定义,下面我们以一个详细的示例来说明什么是元数据。

例如:一张人员信息PersonnelInformation,里面包含字段:ID、Name、EnglishName、Gender、Contact、Post.那么我们在数据库中看到的数据是这样的。

对于这样一张表,我们需要了解这张表的数据就一定需要了解这个表的元数据,那么元数据是什么了

元数据包含业务元数据、技术元数据(包含操作元数据)、管理元数据三种类型。下面详细介绍元数据的三类元数据信息:

一、业务元数据

1)数据集、表和字段的定义和描述,例如表的描述、字段描述属性。

2)业务规则、转换规则、计算公式和推导公式,例如指标字段的计算公式,转换规则等。

3)数据模型(概念模型、逻辑模型),在模型设计阶段中的逻辑模型等。

4)数据质量规则和检核结果,例如对某个字段的质量检查规则。

5)数据标准,例如对某个字段的数据标准。

6)数据的安全/隐私级别。

二、技术元数据

技术元数据(TechnicalMetadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。技术元数据示例包括:

1)物理数据库表名和字段名。

2)字段属性。

3)数据库对象的属性。

4)访问权限。

5)数据CRUD(增、删、改、查)规则。

6)物理数据模型,包括数据表名、键和索引。

7)ETL作业详细信息。

8)文件格式模式定义。

9)数据溯源和数据血缘,包括上游和下游变更影响的信息。

10)周期作业(内容更新)的调度计划和依赖。

11)恢复和备份规则。

12)数据访问的权限、组、角色。

操作元数据

操作元数据(OperationalMetadata)描述了处理和访问数据的细节,例如:

1)批处理程序的作业执行日志。

2)抽取历史和结果。

3)调度异常处理。

4)审计、平衡、控制度量的结果。

5)错误日志。

8)备份、保留、创建日期、灾备恢复预案。

10)容量和使用模式。

12)清洗标准。

13)数据共享规则和协议。

14)技术人员的角色、职责和联系信息。

三、管理元数据

管理元数据是指元数据属性中的管理属性,例如数据所属权,数据所有者,数据拥有部门等属性。表明数据管理权限等。

2)数据所有权属性(如数据所有权部门、数据所有者)。

那么针对上面那个例子,我们详细列一下该表的业务元数据、技术元数据、管理元数据信息。

元数据管理的元数据模型信息具体根据实际使用需要参照以上的列出来的类别进行添加。以上就是元数据的模型,根据这个模型,建立元数据采集任务,将这些信息采集进入表中进行管理,即完成元数据采集的任务。

02非结构化数据的元数据

非结构化数据的元数据包括以下内容:

这些元数据的存在对于非结构化数据的有效管理至关重要。

非结构化数据的元数据主要应用对象是数据湖的数据,数据挖掘和数据科学家需要对数据探索的时候,需要通过元数据找到需要的数据,以及其他元数据定位到自己需要找到的数据,主要能通过元数据进行搜索和定位的能力。

03、元数据的作用

元数据的作用在数据管理中的重要性毋庸置疑,主要体现在三个方面。

一、数据的解读和理解

完善的元数据让数据可以被解读、被理解,进而才能被管理、被使用。

二、元数据目录是提供数据管理的依据

通过收集和维护元数据,我们可以构建一个元数据目录。在这个元数据目录中,记录了企业的数据及其详细描述信息。元数据目录是数据资产管理和数据共享的基石,也是校验数据质量、制定数据安全策略和建立资产目录的依据。同时,元数据的补充还包括数据安全等级和安全策略等重要信息。

例如我们建立数据资产目录是依据元数据建立的。

例如我们建立服务市场和数据资产市场是依据元数据建立的。

三、数据开发过程中排查问题的依据

综上所述,元数据是大数据管理和治理以及开发的基础,没有这个基础,其他上层的工作都无法开展。

04元数据的管理功能

元数据管理的功能主要包含:元模型管理功能、元数据采集,元数据维护、元数据列表、任务监控五个功能。

元模型管理功能,可以自定义选择元数据采集的元数据项,不同公司可以根据当前使用需求,对元数据采集的任务项进行增删修改,自定义可视化修改元模型。

元数据采集,根据定义的元数据模型,添加采集任务,需要采集哪些库,哪些表的元数据信息呢,新建采集任务之后,由调度系统进行调度执行,更新元数据。

元数据维护,采集元数据有时候存在漏采,错采等情形,提供维护页面对采集的元数据进行修改。

元数据列表,采集元数据以业务维度、技术维度、管理维度、安全维度展示,同时管理采集的元数据版本,可以对比不同版本发生的变更。

任务监控,则是对创建的元数据采集任务进行监控,可以重新启动,或者立即执行,了解采集任务的采集成功或者失败情况。

THE END
1.什么是非结构化数据?1.非数值型数据的表示 非数值型数据也是以二进制的形式保存在计算机中的。最简单的就是字符数据,其用https://www.zhihu.com/question/523983127/answer/2807829713
2.数据处理与分析涵盖七大分析方法人人都是产品经理本文针对性地讲讲数据分析整个流程最关键的阶段:数据处理与分析阶段。该阶段我分成了三块:数据采集、数据处理、数据分析,都围绕着“数据”进行,对海量或杂乱数据进行处理分析,从中找出痛点,洞察问题。 一、数据采集 该处的数据采集指的是获取分析所需要的数据,一般可以从内部数据、外部数据两个方向获取。 https://www.woshipm.com/data-analysis/5343087.html/comment-page-1
3.非结构化数据管理平台的操作流程介绍在数字化转型的背景下,非结构化数据的高效管理成为企业提升竞争力的关键。非结构化数据管理平台通过其独特的功能和流程,帮助企业实现对文档、图像、视频等非结构化数据的全面掌控。本文将详细介绍非结构化数据管理平台的操作流程,展示其如何简化数据管理,提高数据的可访问性和安全性。 https://www.gokuai.com/press/a665
4.非结构化数据治理流程2. 收集和整合,收集来自不同部门和系统的非结构化数据,并进行整合,确保数据能够被统一管理和访问。 3. 清洗和标准化,对非结构化数据进行清洗和标准化处理,包括去除重复数据、纠正错误信息、统一命名规范等,以确保数据质量和一致性。 4. 存储和管理,确定合适的存储方式和位置,建立非结构化数据的管理策略,包括数据备https://wenku.baidu.com/view/3e6040489dc3d5bbfd0a79563c1ec5da50e2d6a5.html
5.非结构化数据如何挖掘帆软数字化转型知识库非结构化数据的挖掘可以通过多种方法实现,包括自然语言处理(NLP)、机器学习、文本挖掘、图像和视频分析。自然语言处理是一种广泛应用的方法,通过分析和理解文本数据的语义结构来提取有用的信息。NLP可以帮助企业从大量的文本数据中获取有价值的洞察,例如用户评论、社交媒体帖子和电子邮件。通过使用NLP技术,企业可以识别情感https://www.fanruan.com/blog/article/611442/
6.非结构化数据管理专家深圳市连用科技有限公司(Shenzhen LinkAPP Technology Co., Ltd 简称LinkAPP)成立于2008年,是一家专注于非结构化数据管理和应用的国家认定高新技术企业和深圳市政府重点扶持的软件企业,总部位于深圳,在北京、上海、广州、海口等多地均设立有办事机构,建立了辐射全国的https://www.linkapp.cn/products/42/0
7.大数据金融第二章大数据相关技术数据处理流程 一 数据采集 大数据的采集是指在确定用户目标的基础上,对该范围内的所有结构化、半结构化、非结构化数据进行采集的过程。 (零) 数据来源 商业数据、互联网数据、传感器数据。 采集方法有以下三种 (一) 系统日志采集 1.作用:知道找谁解决问题,定位解决问题,了解客户需求进行个性化营销。 https://www.jianshu.com/p/d68251554c66
8.智慧政府管理系统卡片式流程创建 所见即所得卡片流程定义,流程数字化更加方便 图形化规则配置 图形化配置工作业务,赋能企业管理效率 智能化报表设计 AI智能报表输出,业务数据呈现一览无余 非结构化数据处理 复杂逻辑数据结构轻松处理,完善的数据仓库 移动协作平台 为企业提供一套基于移动端的工作协作平台,面向企业日常管理、生产、销售。https://www.cnet99.com/gov/
9.数据架构:大数据数据仓库以及DataVault按照数据处理方式进行划分的原因是,重复型非结构化数据几乎完全是通过一个管理Hadoop的固定设施来处理的。对于重复型非结构化数据而言,其重点完全集中在对大数据管理器(例如Hadoop)中的数据进行访问、监视、显示、分析和可视化。 非重复型非结构化数据的重点则几乎完全集中在文本消歧上。这里的重点在于消歧的类型、输出的https://www.ituring.com.cn/book/tupubarticle/11854
10.“平民化”非结构数据处理腾讯云开发者社区在全球信息产业高速发展的背景下,IDC预测,2018 到 2025 年之间,全球产生的数据量将会从 33 ZB 增长到 175 ZB, 复合增长率27%,其中超过 80%的数据都会是处理难度较大的非结构化数据,如文档、文本、图形、图像、音频、视频等。非结构化数据在大数据时代的重要地位已成为共识。近些年,伴随着大数据存储、人工智能(https://cloud.tencent.com/developer/article/2214210
11.行政管理论文15篇这势必导致学生处理社会现实问题和交往能力的技能很难有所提升,他们的知识结构、能力结构和素质明显存在不平衡,很难适应信息社会高速发展的需要。操作性和实践性教学严重薄弱。虽然目前我国高校《行政管理学》课程内容体系一般都设置了教学实习、实训等实践环节,但由于其时间短、任务重,而且管理松散,缺乏常态化和规范化,https://www.ruiwen.com/lunwen/6220159.html
12.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
13.解析非结构化数据与结构化数据的区别与联系非结构化数据和结构化数据是两种不同的数据形式,它们在数据的结构、处理方式、获取方式等方面存在差异。非结构化数据是指没有固定格式和明确结构的数据,它包括文本、图像、视频等类型,其组织形式相对自由灵活。而结构化数据是以表格和数据库形式组织的数据,具有明确的数据结构和规范的格式。本文将通过对非结构化数据和https://www.filez.com/news/detail/8334ba6c5eb4f79c51096083f5cb75ca.html
14.什么是非结构化数据?非结构化数据完整指南Elastic定义非结构化数据并探索数据示例以理解它与结构化数据有哪些不同。了解如何分析非结构化数据,非结构化数据的优点和带来的挑战。https://www.elastic.co/cn/what-is/unstructured-data
15.高频面试知识点总结,看看你能答对多少Java知音号这些数据通常需要做结构化查询,比如join,这时候,关系型数据库就要胜出一筹。 这些数据的规模、增长的速度通常是可以预期的。 事务性、一致性。 NoSQL适合存储非结构化数据,如文章、评论: 这些数据通常用于模糊处理,如全文搜索、机器学习。 这些数据是海量的,而且增长的速度是难以预期的。 https://www.cnblogs.com/javazhiyin/p/11555823.html
16.第五届InvestDigital数字证券与资管峰会在沪圆满结束曾任国药集团MIS软件工程师、敏照计算计算机系统架构师,参与工信部《DCMM数据能力成熟度模型》等多个国家标准的建设,是《非结构化数据管理解决方案白皮书2020》等多部专著的主要撰写人。 主导鸿翼参与了贵州大数据平台、中国银联非结构化数据中心等数百个国家大数据项目;打造的鸿翼ECM解决方案服务了招商银行、上汽、扬子江https://meeting.qianzhan.com/meeting/detail/151/230424-f7c77175.html
17.非结构化数据的定义及处理方法结构化数据指有完整规则的数据模型定义,高度组织格式化,可用统一的结构逻辑表达的数据。如:日期、电话号码等。 非结构化数据指数据定义不完整或不规则,没有预定义的数据模型,无法用数据库二维表结构来逻辑表达的数据。简单来说就是字段可变的数据。常见的非结构化数据有文档、图片、音频、视频等。 https://blog.csdn.net/weixin_52189060/article/details/115489159
18.科学网—[转载]武新:大数据架构及行业大数据应用系统除标准SQL外,还需支持MapReduce等分布式处理机制,具备优秀的非结构化数据处理能力,提供完整的事务管理功能,具备完善的混合负载管理能力;具备良好的通用性,支持主流第三方工具,提供可视化开发界面,支持自定义开发。性能方面要求大数据的加载、处理、导出等关键处理性能表现优异,具备优秀的高可用性和线性扩展能力,支持在线https://blog.sciencenet.cn/blog-887780-1358813.html