数据建模的方法及模型

简单讲,就是明确具体业务,抽象实体和关系,结合具体的建模方法,确定所有关键成分和属性,最后建数据表进行数据的存储和计算。

目前数据建模的方法论有两大阵营,一个是基于关系型数据库理论设计出来的,比如基于3NF的范式建模。虽然目前也有不少非关系型数据库以及不少半结构化和非结构化数据。但将半结构化/非结构化数据转化为结构化数据,然后再利用关系型数据库处理仍然是一种通用的主流数据处理方案。

另一个是基于数据仓库之父BillInmon提出的维度建模理论,是从全企业的高度利用实体关系来对企业业务进行描述。

通常我们将操作型系统简称为OLTP(On-LineTransactionProcessing)—联机事务处理,将分析型系统简称为OLAP(On-LineAnalyticalProcessing)—联机分析处理。

针对这两种不同的数据用途,如何组织数据,更好地满足数据使用需求。这里就涉及到数据建模问题。即设计一种数据组织方式(模型),来满足不同场景。在OLTP场景中,常用的是使用实体关系模型(ER)来存储,从而在事务处理中解决数据的冗余和一致性问题。

在OLAP场景中,有多种建模方式有:ER模型、星型模型和多维模型。下面分别说明下:

3、多维模型多维模型,是维度模型的另一种实现。当数据被加载到OLAP多维数据库时,对这些数据的存储的索引,采用了为维度数据涉及的格式和技术。性能聚集或预计算汇总表通常由多维数据库引擎建立并管理。由于采用预计算、索引策略和其他优化方法,多维数据库可实现高性能查询。

维度建模

维度建模,是数据仓库大师RalphKimball提出的,是数据仓库工程领域最流行的数仓建模经典。

维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。它是面向分析的,为了提高查询性能可以增加数据冗余,反规范化的设计技术。

1、事实表

事实表产生于业务过程,存储了业务活动或事件提炼出来的性能度量。从最低的粒度级别来看,事实表行对应一个度量事件。

事实表根据粒度的角色划分不同,可分为事务事实表、周期快照事实表、累积快照事实表。

事务事实表,用于承载事务数据,通常粒度比较低,它是面向事务的,其粒度是每一行对应一个事务,它是最细粒度的事实表,例如产品交易事务事实、ATM交易事务事实。

注意:这里需要值得注意的是,在事实表的设计时,一定要注意一个事实表只能有一个粒度,不能将不同粒度的事实建立在同一张事实表中。

2、维度表

退化维度(DegenerateDimension)

在维度类型中,有一种重要的维度称作为退化维度,亦维度退化一说。这种维度指的是直接把一些简单的维度放在事实表中。退化维度是维度建模领域中的一个非常重要的概念,它对理解维度建模有着非常重要的作用,退化维度一般在分析中可以用来做分组使用。

缓慢变化维(SlowlyChangingDimensions)

SCD常用的三种处理方式:①TYPE1直接覆盖原值

②TYPE2增加维度行

在为维度成员增加新行时,需为其分配新的主代理键。并且,至少需要在维度行再增加三列:有效日期、截止日期、行标识。这个地方可联想拉链表设计。

③TYPE3增加属性列

④混合方式

可根据实际业务场景,混合或选择使用以上三种方式,以快速方便而又准确的分析历史变化情况。

3、粒度

用于确定某一事实表中的行表示什么,是业务最小活动单元或不同维度组合,即业务细节程度。

4、维度建模流程

由于在维度建模过程中,涉及到很多概念。下面通过一个场景来,来一一说明。例如:常见的电商下单环节,每个用户提交一笔订单(仅限一个物品),就对应于一条订单记录。

维度建模的步骤如下:

(1)收集业务需求与数据实现

在开始维度建模工作之前,需要理解业务需求,以及作为底层源数据的实际情况。通过与业务方沟通交流、查看现有报表等来发现需求,用于理解他们的基于关键性能指标、竞争性商业问题、决策制定过程、支持分析需求的目标。同时,数据实际情况可通过与数据库系统专家交流,了解访问数据可行性等。

(2)选择业务过程

(4)确认维度(描述环境)

维度提供围绕某一业务过程事件所涉及的"谁、什么、何处、何时、为什么、如何"等背景。维度表包含分析应用所需要的用于过滤及分类事实的描述性属性。牢牢掌握事实表的粒度,就能够将所有可能存在的维度区分开来。

(5)确认事实(用于度量)

(6)部署方式-星型模型或多维模型

选择一种维度模型的落地方式。既可以选择星型模型,部署在关系数据库上,通过事实表及通过主外键关联的维度表;也可以选择多维模型,落地于多维数据库中。

维度建模方法论

数据仓库建模方法论可分为:维度建模、范式建模、DataVault模型、Anchor模型。1、维度模型企业中最流行、也是最经典的数仓建模经典,数据仓库大师RalphKimball的经典著作《数据仓库工具箱维度建模权威指南第三版》一本书进行了论述。从事数据仓库/ETL/BI的同学,强烈建议买一本至少读一遍。按数据组织类型划分可分为星型模型、雪花模型、星座模型。(1)星型模型星型模型主要是维表和事实表,以事实表为中心,所有维度直接关联在事实表上,呈星型分布。

THE END
1.数据库数据模型(分类三要素概念)③ 网状模型的优点是能更直观的描述世界,良好的性能,缺点是结构复杂 (6)关系模型: ① 关系模型是目前最常见的数据模型之一,主要采用表格结构表达实体集以及实体之间的联系,最 大的特 色就是描述的一致性。 ② 关系是一张表,关系数据模型由若干个表组成。https://blog.csdn.net/zdplife/article/details/48053223
2.什么是数据模型?数据模型与数据治理有什么关系?什么是数据模型?数据模型与数据治理有什么关系? 在企业数据治理的广阔领域中,首要且关键的一步是明确沟通数据治理的需求。这包括对企业所持有的数据种类、数据存储位置、以及当前数据管理的具体情况有一个清晰的了解和记录。了解企业的数据资产是制定有效数据治理策略的基础。企业需要识别和盘点所有类型的数据资产,包括https://www.bilibili.com/read/cv36047680
3.软考知识点——数据模型(1)概念数据模型。概念数据模型也称信息模型,是按用户的观点对数据和信息建模;是现实世界到信息世界的第一层抽象,强调其语义表达功能,易于用户理解;是用户和数据库设计人员交流的语言,主要用于数据库设计。这类模型中最著名的是实体-联系模型,简称E-R模型。 https://mp.weixin.qq.com/s?__biz=MzI1ODQ1OTQxMQ==&mid=2247483999&idx=1&sn=16ddd1b8248bd39777457f980324b455&chksm=ea069023dd711935d591a58f14c03abaf6f539829d94a987328a0774749ed99505045138c02a&scene=27
4.14.试述数据模型的概念数据模型的作用和数据模型的三个要素③数据的约束条件:是完整性规则的集合,完整性规则是给定的数据模型中数据及其联系所具有的制约和依存规则,用以限定符合数据模型的数据库状态以及状态的变化,以保证数据的正确、有效、相容。(数据模型是数据库系统的基础。任何一个DBMS都以某一个数据模型为基础,或者说支持某一个数据模型。数据库系统中模型有不同的https://easylearn.baidu.com/edu-page/tiangong/questiondetail?id=1811479608639750659&fr=search
5.数据模型数据模型(DataModel)是数据库系统中用以提供信息表示和操作手段的形式构架,也是数据特征的抽象[1]。 数据模型从抽象层次上描述了系统的静态特征、动态行为和约束条件,其描述的内容可分为数据结构、数据操作和数据约束三部分。 中文名 数据模型 类型 数据特征的抽象 https://baike.sogou.com/v450067.htm
6.什么是数据建模?SAP数据抽象概念的三个级别是什么? 数据模型的类型有很多,可能的布局类型也有很多。在数据处理方面,有三种公认的建模方式,分别代表模型开发时的思维抽象级别。 概念数据模型 第一级是“全局”模型,表示整体结构和内容,不包含数据计划的详细信息。数据建模通常从这一级开始,旨在确定各种数据集和整个企业中的数据流。概念模https://www.sap.cn/products/technology-platform/datasphere/what-is-data-modeling.html
7.数据模型duanxz1.什么是数据模型? 数据模型就是数据的组织和存储方法。主要关注的是从业务、数据存取和使用角度合理存储数据。 2.典型数据仓库建模方法论 ER模型 纬度模型(建模四步曲:确定业务流程->确定粒度->确定纬度->确定事实表) 二、阿里巴巴数据整合管理体系oneData https://www.cnblogs.com/duanxz/p/12597522.html
8.什么是数据分析模型什么是数据分析模型 提到数据分析,肯定要提到数据分析模型,在进行数据分析之前,先搭建数据分析模型,根据模型中的内容,具体细分到不同的数据指标进行细化分析,最终得到想要的分析结果或结论。常见的数据分析模型有:1、漏斗分析模型;2、留存分析模型;3、全行为路径分析模型;4.、热图分析模型;5、SCP分析模型。https://36kr.com/p/1485846344188297
9.什么是数据建模?IBM数据建模是为整个或部分信息系统创建可视化表示形式的过程,用于表明数据点和结构之间的联系。 其目的在于说明系统中使用和存储的数据类型、这些数据类型之间的关系、数据的分组和组织方式及其格式和属性。 数据模型是根据业务需求构建的。 规则和需求是通过业务利益相关方的反馈预先加以定义的,因此可纳入到新系统的设计之中https://www.ibm.com/cn-zh/topics/data-modeling
10.常见的三种数据库数据模型是什么mysql教程常见的三种数据库数据模型是:1、层次模型;2、网状模型;3、关系模型。数据库模型描述了在数据库中结构化和操纵数据的方法,模型的结构部分规定了数据如何被描述(例如树、表等)。 当前常见的三种数据库数据模型是:层次模型、网状模型、关系模型。 (推荐学习:mysql教程) https://www.php.cn/faq/452791.html
11.『懒人10分钟—大数据篇(一)』数据建模是什么?|— 数据模型规范 |— 建模指导 ODS |— ODS常用的设计方法 |— 应用场景 1、什么是数据模型? 数据模型就是数据的组织和存储方法。主要关注的是从业务、数据存取和使用角度合理存储数据。 2、典型数据仓库建模方法 - 范式模型 - ER实体关系模型 - 纬度模型 https://cloud.tencent.com/developer/article/1514589
12.数据模型的作用及三要素是什么?求答案答案解析 查看更多优质解析 解答一 举报 数据模型(Data Model)是现实世界数据特征的抽象,或者说是现实世界的数据模拟.数据库中,用数据模型来抽象地表示现实世界的数据和信息.数据模型的三要素是:数据结构、数据操作及完整性约束条件. 解析看不懂?免费查看同类题视频解析查看解答 https://qb.zuoyebang.com/xfe-question/question/74ba46941b4a5df6bcf121c6d34bde84.html
13.一文带您了解数据模型:概念模型逻辑模型和物理模型什么是数据模型 数据模型是以数据为视角对现实世界特征进行模拟和抽象的工具,根据业务需求提取信息的主要特征,并反映业务信息(对象)之间的关联关系。数据模型不仅能够较为真实地模拟业务场景,同时也是对重要业务模型和规则的固化记录。它包括三个阶段:概念模型、逻辑模型和物理模型,从概念层面的抽象到物理层面的固化记录,https://www.51cto.com/article/788261.html
14.数据可视化的三种基本模型有哪些帆软数字化转型知识库1. 什么是数据可视化? 数据可视化是将数据转换为图形、图表、地图等视觉元素的过程,以便更容易理解和分析数据。通过数据可视化,人们可以直观地发现数据中的模式、趋势和关系,帮助做出更明智的决策。 2. 数据可视化的三种基本模型 线性模型:线性模型是数据可视化中最基本的模型之一,通过在二维坐标系上绘制直线或曲线来展https://www.fanruan.com/blog/article/164705/
15.什么是OneData?阿里数据中台实施方法论解读经过深度加工后,数据就可以发挥其价值被产品、业务所用;最后通过统一的数据服务中间件“OneService”提供统一数据服务。 三、OneData 方法论切入点 《大数据之路:阿里巴巴大数据实践》一书中详细讲了OneData方法论,具体实施起来还是需要从数据架构方法、数据模型的设计方法以及数据标准化几方面入手。 https://developer.aliyun.com/article/970984
16.什么是AnyCAD?Inventor特色功能之AnyCADBIM免费教程想必许多设计工程师曾遇到使用打不开某种三维模型的情况。Inventor非常友好的具备打开所有三维模型数据格式的功能,来避免这样的尴尬。Inventor甚至还可以引用未来(更高)版本的 Inventor模型文件。我们称之为AnyCAD。顾名思义就是AnyCAD可以读取所有格式的三维模型。http://www.tuituisoft.com/bim/22947.html
17.数据模型一般来说是由三个部分组成,分别是:和常用的数据模型有哪几种?数据模型的三要素是什么?关系模型由哪三部分组成? 特别推荐 热点考点 2022年高考真题试卷汇总 2022年高中期中试卷汇总 2022年高中期末试卷汇总 2022年高中月考试卷汇总 二维码 回顶部?2021 作业帮?联系方式:service@zuoyebang.com?作业帮协议https://www.zybang.com/question/58749af5f5bc7f3a36cf53648237fe6a.html
18.数据分析常用方法之20个数据分析模型以上就是数据分析常用方法的20个数据分析模型,总的来说,模型即框架,框架即抽象思维。https://www.jiushuyun.com/hywz/1771.html
19.科学网—中国核酸数据库GSA数据提交指南GSA 数据模型 为确保与国际同类数据库系统的兼容性,GSA遵循INSDC联盟的数据标准,GSA元数据类别主要包括项目信息(BioProject,归档于生物项目数据库)、样本信息(BioSample,归档于生物样本数据库)、实验信息(Experiment)、以及测序反应(Run)信息。项目信息是用来描述所开展研究的目的、涉及物种、数据类型、研究思路等信息;样本https://blog.sciencenet.cn/blog-3334560-1218399.html
20.model数据库什么是 SQL Server? 连接到数据库引擎 新增功能 版本和功能 发行说明 业务连续性 数据库设计 层次结构数据 排序规则 数据库 概述 操作指南 概念 管理 系统数据库 系统数据库 主 模型 msdb 资源 tempdb 重新生成系统数据库 包含的数据库 参考 事件通知 https://docs.microsoft.com/zh-cn/SQL/relational-databases/databases/model-database?view=sql-server-ver16
21.应用数据分析模型有哪些关联规则模型是一种数据挖掘技术,用于发现数据中的关联规则。关联规则模型可以帮助企业发现不同变量之间的关系,以便更好地进行业务决策。关联规则模型在实际应用中有许多用途,例如购物篮分析、网络流量分析等。常见的关联规则模型包括Apriori算法、FPGrowth算法等。 https://www.linkflowtech.com/news/1659