数据治理体系之二

“很多刚进入数据行业的从业者对于元数据经常会存在理解不了,或者不知道是什么的现象,本文简单从什么是元数据,元数据的定义,元数据的作用,元数据管理的功能,以及元数据在数据治理中的意义进行介绍元数据”

元数据是指描述数据的数据,它包含有关数据的各种属性和特征的信息。在DAMA(数据管理协会)中,元数据的定义是指一组结构化信息,用于描述和管理数据资源。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理来说是不可或缺的。它有助于处理、维护、集成、保护和治理其他数据。

通过准确、一致和完整的元数据管理,组织可以更好地管理和控制数据资产,提高数据的可信度和可用性,从而支持业务决策和创新。

看这个定义,元数据是什么还是相对比较抽象,下面进行详细的说明。

01什么是元数据

前面已经结束了元数据的定义,下面我们以一个详细的示例来说明什么是元数据。

例如:一张人员信息PersonnelInformation,里面包含字段:ID、Name、EnglishName、Gender、Contact、Post.那么我们在数据库中看到的数据是这样的。

对于这样一张表,我们需要了解这张表的数据就一定需要了解这个表的元数据,那么元数据是什么了

元数据包含业务元数据、技术元数据(包含操作元数据)、管理元数据三种类型。下面详细介绍元数据的三类元数据信息:

一、业务元数据

1)数据集、表和字段的定义和描述,例如表的描述、字段描述属性。

2)业务规则、转换规则、计算公式和推导公式,例如指标字段的计算公式,转换规则等。

3)数据模型(概念模型、逻辑模型),在模型设计阶段中的逻辑模型等。

4)数据质量规则和检核结果,例如对某个字段的质量检查规则。

5)数据标准,例如对某个字段的数据标准。

6)数据的安全/隐私级别。

二、技术元数据

技术元数据(TechnicalMetadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。技术元数据示例包括:

1)物理数据库表名和字段名。

2)字段属性。

3)数据库对象的属性。

4)访问权限。

5)数据CRUD(增、删、改、查)规则。

6)物理数据模型,包括数据表名、键和索引。

7)ETL作业详细信息。

8)文件格式模式定义。

9)数据溯源和数据血缘,包括上游和下游变更影响的信息。

10)周期作业(内容更新)的调度计划和依赖。

11)恢复和备份规则。

12)数据访问的权限、组、角色。

操作元数据

操作元数据(OperationalMetadata)描述了处理和访问数据的细节,例如:

1)批处理程序的作业执行日志。

2)抽取历史和结果。

3)调度异常处理。

4)审计、平衡、控制度量的结果。

5)错误日志。

8)备份、保留、创建日期、灾备恢复预案。

10)容量和使用模式。

12)清洗标准。

13)数据共享规则和协议。

14)技术人员的角色、职责和联系信息。

三、管理元数据

管理元数据是指元数据属性中的管理属性,例如数据所属权,数据所有者,数据拥有部门等属性。表明数据管理权限等。

2)数据所有权属性(如数据所有权部门、数据所有者)。

那么针对上面那个例子,我们详细列一下该表的业务元数据、技术元数据、管理元数据信息。

元数据管理的元数据模型信息具体根据实际使用需要参照以上的列出来的类别进行添加。以上就是元数据的模型,根据这个模型,建立元数据采集任务,将这些信息采集进入表中进行管理,即完成元数据采集的任务。

02非结构化数据的元数据

非结构化数据的元数据包括以下内容:

这些元数据的存在对于非结构化数据的有效管理至关重要。

非结构化数据的元数据主要应用对象是数据湖的数据,数据挖掘和数据科学家需要对数据探索的时候,需要通过元数据找到需要的数据,以及其他元数据定位到自己需要找到的数据,主要能通过元数据进行搜索和定位的能力。

03、元数据的作用

元数据的作用在数据管理中的重要性毋庸置疑,主要体现在三个方面。

一、数据的解读和理解

完善的元数据让数据可以被解读、被理解,进而才能被管理、被使用。

二、元数据目录是提供数据管理的依据

通过收集和维护元数据,我们可以构建一个元数据目录。在这个元数据目录中,记录了企业的数据及其详细描述信息。元数据目录是数据资产管理和数据共享的基石,也是校验数据质量、制定数据安全策略和建立资产目录的依据。同时,元数据的补充还包括数据安全等级和安全策略等重要信息。

例如我们建立数据资产目录是依据元数据建立的。

例如我们建立服务市场和数据资产市场是依据元数据建立的。

三、数据开发过程中排查问题的依据

综上所述,元数据是大数据管理和治理以及开发的基础,没有这个基础,其他上层的工作都无法开展。

04元数据的管理功能

元数据管理的功能主要包含:元模型管理功能、元数据采集,元数据维护、元数据列表、任务监控五个功能。

元模型管理功能,可以自定义选择元数据采集的元数据项,不同公司可以根据当前使用需求,对元数据采集的任务项进行增删修改,自定义可视化修改元模型。

元数据采集,根据定义的元数据模型,添加采集任务,需要采集哪些库,哪些表的元数据信息呢,新建采集任务之后,由调度系统进行调度执行,更新元数据。

元数据维护,采集元数据有时候存在漏采,错采等情形,提供维护页面对采集的元数据进行修改。

元数据列表,采集元数据以业务维度、技术维度、管理维度、安全维度展示,同时管理采集的元数据版本,可以对比不同版本发生的变更。

任务监控,则是对创建的元数据采集任务进行监控,可以重新启动,或者立即执行,了解采集任务的采集成功或者失败情况。

THE END
1.了解新式数据仓库的文件格式和结构请务必了解各种文件类型,了解哪种类型用于原始存储,哪种类型用于优化的版本,以便进行分析查询。 其他设计注意事项包括用于优化查询和数据加载活动的层次结构。 本单元介绍了文件类型及其最佳用例,以及如何在数据湖中最好地组织它们。 支持的用于成批引入原始数据的文件https://docs.microsoft.com/zh-cn/training/modules/design-modern-data-warehouse-using-azure-synapse-analytics/6a-understand-file-formats-structure-modern-data-warehouse/
2.数据架构包含数据流向吗mob6454cc7aec82的技术博客一,HBASE 数据库 1,非关系型数据库 2,hadoop databases 简称 hbase ,是一个高可靠性,高性能,面向列(按照列,在添加数据时候,进行创建表结构),可伸缩,实时读写的分布式数据库 3,主要是用来存储非结构化和半结构化的松散模型 二,数据模型 Row Key: https://blog.51cto.com/u_16099345/12887436
3.昆明城市学院《数据库原理及应用》2021以下关于数据库存储结构选择的描述,哪一项是不准确的?()A.可以将图像数据以二进制大对象(BLOB)的形式直接存储在数据库表中B.将图像数据存储在文件系统中,并在数据库中保存文件路径是一种常见的方式C.对于频繁访问的小图像数据,直接存储在数据库中可能比存储在文件系统中更高效D.无论图像数据的大小和访问频率如何https://www.renrendoc.com/paper/369555940.html
4.数据存储形式与载体有哪些数据存储的选择考量 选择合适的数据存储形式与载体需要考虑数据类型、数据量、访问频率、安全性和成本等因素。例如,结构化数据通常使用数据库系统进行管理,而非结构化数据则可能更适合使用对象存储。此外,数据的安全措施包括加密、访问控制和备份等。 数据存储形式与载体的选择对于确保数据的安全、高效和成本效益至关重要。http://www.saifanbox.com/e/wap/show.php?classid=12&id=92954
5.什么是非结构化数据和结构化数据结构化存储和非结构化存储没有预定义的格式:非结构化数据的存储形式非常灵活,没有固定的行和列。 多样性:可以包括文本文件、PDF 文档、图片、视频、社交媒体数据等。 复杂的处理方式:处理非结构化数据需要使用更复杂的技术,如自然语言处理(NLP)或图像识别技术。 无法直接使用传统数据库存储:非结构化数据通常存储在文件系统或分布式存储系统中https://blog.csdn.net/m0_55213370/article/details/141938577
6.非结构化数据有哪些而非结构化数据则是指那些不适合存储在传统数据库中的数据,它们通常以文本、图像、音频、视频等形式存在。https://www.gokuai.com/press/a573
7.非结构化数据包括哪些内容在信息技术快速发展的今天,数据已经成为我们生活和工作中不可或缺的一部分。数据大致可以分为结构化数据和非结构化数据两大类。结构化数据主要指的是具有固定格式和结构的数据,如数据库中的表格数据。而非结构化数据,由于其形式多样、结构不固定,一直是数据处理和分析的难点和热点。 https://www.zhuflow.cn/news/information/1358.html
8.手把手教程MinIO对象存储高效入门MinIO对象存储对象存储由于块存储和文件存储的存储特点,并不适合公有云存储,一般只适合在局域网内部使用,另外随着互联网需求的发展,数据量爆炸式的增长,不断吞食着存储资源;数据类型也逐渐多元化,各类非结构化的数据占比显著增加,如何应对新的存储需求?对象存储应运而生。 存储协议 https://juejin.cn/post/7269396835659710523
9.存储层数据压缩与去重技术:提升存储效率与成本效益的关键存储层数据压缩技术是指在数据存储过程中,通过特定的算法和策略,减少数据占用的存储空间,从而提高存储效率的技术。数据压缩技术通常分为无损压缩和有损压缩两大类。 无损压缩:无损压缩是指在压缩过程中,不丢失原始数据的任何信息,能够完全恢复原始数据的压缩方法。常见的无损压缩算法包括Huffman编码、LZ77/LZ78算法、算术https://www.ctyun.cn/developer/article/623414089322565
10.国内综合档案馆电子档案存储情况分析根据调研,档案部门所使用的存储格式近20种,使用比例较高的存储格式有:TXT、DOC、XML、PDF、TIFF、JPEG、DBF、XLS、WAV、MP3、AVI、MP4等文件格式,这些不方便用数据库二维逻辑表来表现的数据都是非结构化的数据,大量的非结构化数据给电子档案存储的性能、安全和稳定性等提出了很高的要求。此外,非结构化数据的存储多https://www.yueyang.gov.cn/daj/6630/30097/content_1749816.html
11.什么是非结构化数据?首先,非结构化数据缺乏明确的模式和格式,需要通过特定的技术和工具进行解析和处理。其次,非结构化数据的数量庞大且多样性,常常以海量的形式存在,需要适当的存储和处理方法来应对。此外,非结构化数据的来源也很丰富,包括文本、图像、音频、视频等,进一步增加了数据的复杂性。https://www.filez.com/news/detail/974a6ef096d0b214bf7e13a2218d4e30.html
12.数据湖存储非结构化数据星环科技为您提供数据湖存储非结构化数据相关内容,帮助您快速了解数据湖存储非结构化数据。如果想了解更多数据湖存储非结构化数据资讯,请访问星环科技官网(www.transwarp.cn)查看更多丰富数据湖存储非结构化数据内容。https://www.transwarp.cn/keyword-detail/52484-1
13.采购数据分析报告模板(10篇)进入会计信息的除了原始凭证录入结构化数据以外,还忽略了与企业经济活动密切相关、富含经济价值的非结构化数据。面对数据存储分散、数据总量大、增长速度快、蕴含信息多的非结构化数据,缺乏有效的智能化处理,因而没有纳入会计信息系统,导致绝大部分有丰富价值的非结构化数据不能够体现于会计信息控制流程中,不能有效挖掘它https://www.haofabiao.com/haowen/6588.html
14.什么是对象存储器?什么是对象存储器? 了解 IBM 如何帮助企业处理对象存储器 对象存储器通常称为基于对象的存储器,是一种用于处理大量非结构化数据的数据存储架构。这些数据无法轻易整理到包含行列的传统关系数据库中,或不符合其要求。当今的互联网通信数据的大部分都是非结构化的。其中包括电子邮件、视频、照片、Web 页面、音频文件、https://www.ibm.com/cn-zh/topics/object-storage
15.了解结构化数据与非结构化数据的差异结构化和非结构化数据在许多方面都有所不同。两者都使用不同的工具和方法来处理和分析信息。 下面是结构化数据与非结构化数据的简要比较表。 结构化数据非结构化数据 以特定的方式和固定的格式组织。没有组织,没有固定的格式。 存储在关系数据库或电子表格中。不适合关系数据库或电子表格的各种数据格式。 https://www.360doc.cn/article/68899713_1124424478.html
16.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象1. 对象存储在银行业的应用机会 随着银行业IT技术的快速发展和业务的不断升级变革,业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模也越来越大,银行业非结构化数据呈指数式爆发式增长。目前使用非结构化数据的主要系统包括内容管理平台、后督影像系统、身份验证、柜员办业务扫描件等需要用到影像图https://redhat.talkwithtrend.com/Article/242823
17.非结构化数据管理专家基于文件云实同统一文件平台硬件和网络管理、统一存储管理、实现数据存储生命周期管理,大幅度节省投入和运维 07 安全部门 基于文件云实现非结构化数据资产安全治理&统一安全管控 08 软件开发中心 基于文件云非结构化中台内容存储、内容计算、内容安全相关API 二次开发, 大幅度降低应用开发成本 https://www.linkapp.cn/products/42/0
18.详解Python中数据的多种存储形式python1 JSON 文件存储 JSON,全称为 JavaScript Object Notation, 也就是 JavaScript 对象标记,它通过对象和数组的组合来表示数据,构造简洁但是结构化程度非常高,是一种轻量级的数据交换格式。本节中,我们就来了解如何利用 Python 保存数据到 JSON 文件。 1. 对象和数组 在JavaScript 语言中,一切都是对象。因此,任何支持的https://www.jb51.net/article/283444.htm
19.非结构化数据应用调研6. 如果有纸质资源,现有的纸质资源是否都有相对应电子文件: 是否 7. (非结构化)数据资源在部门内主要用途有:(可多选,无下选项可自填) 优化人力资源组织结构教职工培训与考核科研申报其他 8. 目前已有的非结构化数据的存储方式:(可多选,无下选项可自填) 移动硬盘网盘电脑存储服务器现有的网络平台其他 9. 现有https://www.wjx.cn/xz/170049874.aspx
20.结构化数据vs.非结构化数据基础设施CIO时代网结构化数据与非结构化数据:有什么区别? 除了存储在关系数据库和存储在一个关系数据库之外的明显区别之外,最大的区别在于分析结构化数据与非结构化数据的便利性。针对结构化数据存在成熟的分析工具,但用于挖掘非结构化数据的分析工具正处于萌芽和发展阶段。 https://www.ciotimes.com/Infrastructure/147367.html
21.干货如何在海量文件系统中选择合适自己的文件系统半结构化数据: 介于结构化(如关系型数据库中的数据)和非结构数据(音频、视频、图片等)之间的一种数据,它可以是自描述的(即结构可以是自定义,格式并不固定,如相同的键值下存储的数据可能是数值、字符、列表等,结构和内容是混在一起的,无明显区分),常见的如 JSON、XML,HTML 文档等。 https://xie.infoq.cn/article/3af980b8e0f04a816f98b9255
22.什么是结构化数据和非结构化数据?零代码知识中心顾名思义,其他所有不能按照行列格式整齐排列的数据都是结构化数据,如录音、视频片段、图像、社交媒体帖子、电子邮件内容、客户服务聊天记录、机器传感器数据等等。据 Gartner 估计,非结构化数据约占企业所有数据的 80%,来自其他机构的估计甚至更高。 非结构化数据可以由人类或机器生成。人类生成的信息包括音频文件、视频https://www.jiandaoyun.com/fe/gdyqhj/