用得好的数据才是资产,当数据资产遇上知识图谱

用得好的数据才是资产,当数据资产遇上知识图谱

01什么是E-R图

E-R图(EntityRelationshipDiagram)也称实体关系图,是一种用来描述实体、属性和关系的模型。我们常用矩形来表示现实中客观存在且相互区别的实体,用椭圆来表示实体具有的某一特征,用菱形来表示实体和实体间一对一,一对多和多对多的关系。假如现在回到我们大学的数据库课堂上,那么你一定不会对下面这个图感到陌生。

E-R图一般是用数据库外键来存储和维护这个关系。但是随着业务规模增大和数据量增长后外键性能的降低,越来越多的应用系统在设计时不再使用外键而通过业务代码来保障业务之间的依赖关系,从而导致不易通过外键信息查看到数据中的逻辑关系。

02我们看到的E-R居然不一样

现在有一个数据库叫DMS_META,打开一个我们常用的数据库管理软件可以查看一下对应的E-R图。如下图所示,表在渲染的同时展示出了表与表之间的外键引用关系。

但当我们打开DMS查看对应E-R关系时,发现渲染出来的关系会更加丰富。跟之前的看到的E-R完全不一样。

03DMS增强E-R做了什么

DMS的E-R图为什么会不一样?DMS对DMS_META这个库都做了哪些操作?增强了哪些能力?

3.1传统E-R能力

我们使用DMS的表结构设计创建了4个会员表huiyuan_t1(简称t1表),huiyuan_t2(简称t2表),huiyuan_t3(简称t3表),huiyuan_t4(简称t4表),同时创建一个外键表huiyuan_fk(简称fk表),该表和t1表有外键引用关系。同时使用DMS的测试数据构建能力为这些表插入对应的测试数据。

待数据资产图谱构建完成后,回到DMS上查看对应的增强E-R图,可以查看到物理外键间的关联关系。

同时也可以点击“节点”和“边”查看对应的表详情和关联关系详情。

3.2列算子血缘解析E-R能力

列算子血缘解析E-R是基于DMS自研的列算子血缘解析器的能力构建,DMS每天将通过SQL窗口和数据库开发工单中的所有SQL进行列算子血缘解析,并将经过列算子血缘解析后的字段之间的关联、依赖及影响关系纳入增强E-R图谱。

接下来我们在SQL窗口(也可以通过数据库开发中的变更工单)上模拟一些真实场景的数据库操作。分别使用t1表和t3表的user_id做一次关联生成一个宽表huiyuan_join(简称join表),使用t4表做一次数据过滤生成一个新的新表huiyuan_depend(简称depend表),使用t2表和t3表进行一定的过滤并关联起来生成一张新表huiyuan_influ(简称influ表)。

通过以上3条SQL模拟了DMS上一般用户的常见查询操作。待数据资产图谱构建完成后,回到DMS上查看对应的增强E-R图,可以看到,除了传统的物理外键外,字段关联字段,字段依赖字段,字段影响字段的关联关系也体现到了增强E-R图中。

3.3任务编排E-R能力

同样的,通过DMS的任务编排进功能行一个常见的ETL任务的开发,创建一个huiyuan_df(简称df表),使用任务编排功能每天0点定时清理df的表,并从t2表抽取数据写入到df表。

通过上述操作模拟了一个数据ETL任务开发的场景,并使用任务编排的调度血缘来构建资产图谱。待数据资产图谱构建完成后,回到DMS上查看对应的增强E-R图,可以看到,除了传统的物理外键,列算子血缘关系外,任务编排的调度血缘的关系也体现到了增强E-R图中。

3.4智能探查E-R能力

智能探查(SchemaMatching)是DMS自研的数据识别算法引擎,该引擎可在已有的数据资产中识别元数据和内容数据并自动挖掘数据内潜在的关联关系,并将挖掘到的关系将用于构建增强E-R图。

比如可以发现t1表的user_name和t2表的user_name从元数据和数据内容识别上来看都是用户的会员名,接下来我们将ShcemaMatching引擎挖掘后的结果进行关联。待数据资产图谱构建完成后,回到DMS上查看对应的增强E-R图,可以看到,除了传统的物理外键,列算子血缘关系,调度血缘关系外,通过智能探查的关系也体现到了增强E-R图中。

小彩蛋

细心的读者可以看到DMS增强E-R图中表的右上角有一些小图标,标识了该数据资产在DMS数据资产图谱中的使用情况。增强E-R还隐藏了更多的图标和功能待您继续发掘。

04DMS增强E-R的技术能力

DMS的增强E-R与传统E-R的构建方案不同,除了具有传统外键展示能力,在DMS一站式多云多源数据纳管,统一Catalog采集,列算子血缘解析和数据资产图谱构建等能力支持下,可以帮助您挖掘出数据资产之间更多潜在的关联关系。

4.1多云多源的数据纳管能力

4.2统一Catalog采集能力

DMS自研的统一元数据采集系统已经稳定的支持了阿里集团内部10多年的元数据采集工作,并作为集团内统一的元数据标准为集团的数据管理和治理等业务提供数据支撑和服务,可以快速稳定地对“多云多源”的元数据进行采集,并将各种数据源的实例/库/表/列进行统一的构建和管理。

4.3列算子血缘解析能力

列算子血缘解析器是DMS自研的集多引擎SQL解析,元数据自动获取,字段血缘解析,字段加工算子解析于一体的解析器,具有解析字段关联字段,字段依赖字段,字段影响字段,表关联表,表依赖表,表影响表,字段影响表,表影响字段等能力。基于它可以对用户全量SQL中的数据加工逻辑进行快速的解构并给出结构化的解析结果以及直观的可视化视图。

4.4数据资产知识图谱能力

DMS基于元数据自动挖掘和阿里云TairforGraph的能力构建了百亿级别的节点和关系的数据资产知识图谱,并结合多种数据资产业务应用场景,提供对应的查询和服务能力,比如,通过查看敏感数据的传递方式,可以避免敏感信息二次加工后泄露;通过查看数据之间的依赖关系,可尽早发现数据变更的风险;通过查看数据之间的关联关系,可辅助构建数仓宽表;通过查看数据之间的加工关系,可查看数据的加工链路;通过查看数据之间的引用关系,可识别数据库中的冷、热资产。

THE END
1.两张逻辑图清晰地说明:知识知识图谱能力模型任务岗位目标之间很显然培训要支持业务的最佳切入点是训练员工的岗位技能要实现训练员工的岗位技能就必须萃取出每个典型工作岗位的知识图谱然后再运用学习设计技术选择正确的培训方式将知识图谱赋能于每位员工或者是ai员工这才培训管理岗最大的价值 两张逻辑图清晰地说明:知识、知识图谱、能力模型、任务、岗位目标之间的逻辑关系 两张逻辑https://wenku.baidu.com/view/ee70261f01020740be1e650e52ea551810a6c920.html
2.一文读懂知识图谱的主要技术学术观点职教动态知识计算是基于已构建的知识图谱进行能力输出的过程,是知识图谱能力输出的主要方式。知识计算概念内涵如图4.16所示,主要包括知识统计与图挖掘、知识推理两大部分内容,知识统计与图挖掘重点研究的是知识查询、指标统计和图挖掘;知识推理重点研究的是基于图谱的逻辑推理算法,主要包括基于符号的推理和基于统计的推理。https://www.gxgy.edu.cn/kjxq/zjdt/sxgd/content_62961
3.什么是人工智能的知识图谱?知识图谱的组成构建应用有哪些人工智能(Artificial Intelligence,AI)是一种通过计算机模拟人类智能的技术,其应用范围越来越广泛。知识图谱(Knowledge Graph,KG)则是人工智能技术中的重要组成部分,它是一种结构化的、语义化的知识表示方式,能够帮助计算机理解和处理人类语言。 知识图谱的定义 https://cloud.tencent.com/developer/article/2286418
4.知识图谱技术概览文章浏览阅读2.2k次。目录一.概念与发展1.什么是知识图谱2.知识图谱的发展二.知识图谱的本质三.深度学习与知识图谱三.技术概览1.什么是知识表示2.知识抽取3.知识存储4.知识问答5.知识融合一.概念与发展1.什么是知识图谱知识图谱(Knowledge Graph),在图书情报界称为知识域https://blog.csdn.net/qq_39671159/article/details/116560433
5.人工智能技术基础系列之:知识图谱51CTO博客机器学习:知识图谱与机器学习在推理、预测等方面有很多相似之处。然而,知识图谱的数据结构更加结构化,可以更好地支持复杂的推理任务。此外,知识图谱可以借鉴机器学习的深度学习、无监督学习等技术,提高知识图谱的表示能力。 图论:知识图谱与图论在表示实体和关系方面有很多相似之处。然而,知识图谱的数据结构更加结构化,可https://blog.51cto.com/universsky/8996522
6.什么是知识图谱?有哪些模型?指标?规则?“图谱”的时代 知识图谱自从2012年开始发酵,愈演愈烈,行业顶端的佼佼者纷纷发布企业知识图谱应用,知识图谱能为企业实现数据价值。只能说,图技术快速发展,业务需求不论变化与否https://www.jianshu.com/p/8266518c6fd4
7.知识图谱在教育领域的实际应用嘲有哪些,如何通过知识图谱提高人通过教育数据挖掘、学习分析、深度学习等技术,实时监测学习者的学习进度与状态,刻画知识图谱、能力图谱,https://www.zhihu.com/question/309889161/answer/2772556283
8.教育部:打造拔尖人才的知识图谱能力图谱素质图谱,以人工智能此外,还将开辟智能化新赛道,推动新应用。打造人工智能教育大模型,构建自主可控数据集,实施人工智能大模型应用示范行动(LEAD行动),优先在数学、大气科学、生物学、力学等10个场景上推动垂类应用。打造拔尖人才的知识图谱、能力图谱、素质图谱https://mp.weixin.qq.com/s?__biz=MzI3MjIyNjg4OQ==&mid=2247589082&idx=2&sn=7c0915bda938bff84a8cecce7fd395e7&chksm=ea521974dd81ed6029807d06435dbcfdec0ac5ed71e0b02823ac5bb3d6680e881ab1fce7681e&scene=27
9.什么是知识图谱?IBM在摄取数据时,这个过程使知识图谱能够识别单个对象,并理解不同对象之间的关系。 然后,将这些工作知识与其他相关和相似的数据集进行比较和整合。 知识图谱完成后,问答和搜索系统便能够检索和重用给定查询的综合答案。 虽然面向消费者的产品展示了其节省时间的能力,但同样的系统也可以应用于业务环境,由此避免了手动数据收集https://www.ibm.com/cn-zh/topics/knowledge-graph
10.干货系列(二)我们为什么要使用知识图谱?公司动态上周,我们已经为大家初步介绍了知识图谱,尽管部分文字表述看似深奥,但其实我们在日常生活中经常感受到知识图谱技术带来的便利。本周,我们将为大家继续分享知识图谱的系列文章。http://www.zqykj.com/newsshow.php?cid=27&id=534