数据中台–天云数据

数据中台是商业模式从IT时代进入DT时代的必然产物,是从流程驱动转向数据驱动的必然结果。云计算的三种服务模式分别是SaaS:Software-as-a-Service(软件即服务),PaaS:Platform-as-a-Service(平台即服务),IaaS:Infrastructure-as-a-Service(基础设施即服务)。现在比较流行的数据中台,可以理解为PaaS,即数据平台提供数据服务能力支撑。在过去的10多年里,像Google,微软等知名企业研发了很多平台框架,但是都没有能以公共服务的方式发展成一个很强的中台支撑业务应用,主要原因是传统IT业务系统是以流程驱动,以业务为核心,提供类似SOA的服务设计框架,实现的是服务复用,由于这些SOA服务框架,都是个性化业务需求,只能实现以组件模块的形式做编写复制,无法形成正在意义的PaaS平台。

今天,随着大数据,人工智能新技术的发展,带来的一个新的窗口机遇,主要几个核心技术组件都发生根本性的变化。例如:第一传统IOE体系架构上的优化,像虚拟化超融合等技术,这些是延续性创新,是围绕IOE体系架构下各种协议标准做资源调度的优化;第二IOE大架构出现断崖式迁移,出现了像分布式计算,容器化,机器学习人工智能等技术框架,这是当前最主流的体系框架。这种变化使PaaS层开始出现以数据驱动为核心,充分利用数据价值,提供服务应用,最终形成数据中台。

数据中台帮忙用户快速“用好”数据,明确数据有价值。应用数据,发挥数据价值,不但采用传统BI思路实现数据报告服务,还有采用AI建模思路。更好的用好数据。采用智能算法配合规模化数据,充分挖掘数据,实现数据价值。以数据为驱动,形成数据闭环,不断优化模型算法,动态调整模型,提高模型效率和准确度,更好挖掘数据价值。

数据中台体系架构主要分三层,分别是数据融合层,技术支撑层和数据服务层。

数据融合层主要实现数据采集汇聚融合服务,支撑异构数据融合,数据管理,实时批量数据采集等功能。

数据服务层主要是采用微服务架构实现数据BI服务应用和模型智能服务应用,用来支撑智能业务应用。

(一)Hilbert复杂网络技术:

Hilbert采用B/S结构设计。在算法支持上,内建多种图计算算法;在使用上,提供了数据加载、处理、建模、计算、查询以及展示等全方位的配套功能;在管理和开发上,具有完备的图形化管理界面和主流语言的开发接口。因此,产品在方便业务和技术人员使用的同时,能够快速帮助用户实现系统的就绪。

Hilbert总体上由三个核心部分组成,包括图谱展现工具、图计算引擎和图数据。

图谱展现工具:通过直观、友好的图谱展示技术,展现复杂网络分析计算后的结果数据,便于用户对数据的理解。

图计算引擎:内建有多种基于分布式技术的图计算算法,支撑在海量数据下对网络结构数据进行分析计算,快速反馈计算结果。

图数据库:基于分布式存储技术实现对网络结构数据的建模和存储,支持对数据的增/删/改/查等维护操作,并具备事务处理能力。

关联性分析:研究分析网络结构数据中节点与节点之间的关系。可用于对朋友圈中关系的分析、最佳行程的规划以及网络的路由分析等分析场景。

节点重要性分析:根据网络结构特点,分析评估节点或边在网络中的重要性,可用于产品传播营销,网页搜索结果排名等分析场景。

社团分析:分析并挖掘庞大网络体系中的关系密切的子网络群。可用于供应链的发现、朋友圈的发现等场景。

网络特征评估:用于观察并分析所研究网络的整体特征,可作为其他复杂网络分析的基础。

(二)Hubble-HTAP数据库:

Hubble数据库产品以Hadoop作为底层平台,采用分布式技术,提供多种接口服务于企业中具有实时性查询要求的系统应用。为企业提供良好的海量数据实时查询的解决方案,最大程度的保障了企业业务处理的流畅,促进企业的高效运作,它同时和数据湖泊(DataLake)具有较好的天然融合性。

基于混合数据库架构的Hubble数据库,具有以下主要特性:

第一是支持实时、离线高速入库,满足各种入库需要,并支持实时入库,支持离线批量加载,并支持多节点的ACID

第二支持超高并发,即支持大规模用户访问,支持上万用户在线实时高并发修改和查询

第三是支持全部标准SQL的语法,提供各种分类、汇总等统计公式,及OLAP分析。

(三)AIPaaS平台:

功能特性

MaximAI平台包含6个主要的功能模块:工程化管理平台模块、数据存储和加载功能模块、数据预处理和统计分析模块、全量数据建模模块、预测建模和模型评价模块、自主编程以及特定场景开发模块。

工程化管理平台模块

工程化管理平台实现了对各数据建模整个生命周期的可视化和模块化管理,并以友好的用户界面和高级的技术特性,整合用户管理、任务管理、数据管理和模型管理等业务级管理任务。

数据建模工程界面:友好且实用性极强的图形用户界面交互FreeCoding模式

数据的工程化上传、存储、加载和管理

模型的工程化创建,调优,存储,加载和管理

展示性的MaximAI模型仓库

企业级管理任务:用户进行自主管理和任务管理

企业级平台系统管理:企业各部门、各员工的权限及角色管理,平台样式、日志及配置管理

企业级工程和任务管理:企业各角色的模型管理、任务管理和工程管理

数据的快速存储和加载功能

MaximAI的数据存储和加载功能模块基于Hadoop/Spark集群,通过分布式文件系统HDFS的数据接口,提供数据整合和数据质量管理等技术,支持海量数据的快速存储和加载。

海量数据的快速存储:基于分布式文件系统HDFS的集群分布式数据存储和列表显示,支持Hadoop/Spark的访问接口

海量数据的数据质量加速器:交互式数据质量管理操作,包括数据拆分和数据整合

海量数据的分布式加载、数据上传和导入

数据预处理和统计分析

MaximAI平台集合了众多常用的数据处理和统计分析技术,通过交互式和可视化的工具,实现数据处理、变量分析、和数据可视化等,支持对数据快速分析和整体把握。

数据处理

缺失值补充

数据类型转换

特征选择

海量数据的统计分析

数据的变量分析:数据特性统计,密度估计

数据可视化

数据特征的密度分布

数据特征最大值、最小值、均值零值数量以及缺失情况等

全量数据的描述性建模

MaximAI平台集合众多主流的机器学习算法,结合Hadoop/Spark平台的分布式能力,支持基于海量数据集的全量数据描述性建模,并且提供菜单式参数调优界面,实现了企业级AI模型生产和分析。

主流的机器学习算法的描述性建模

分类:深度学习、随机森林、朴素贝叶斯模型、广义线性模型、梯度提升模型、支持向量机

聚类:K-means

回归:深度学习、随机森林、广义线性模型、梯度提升模型

降维:主成分分析,广义低阶模型

探索性数据建模策略

建模数据的交叉验证:N折交叉验证

菜单式参数调优选择:各模型各参数的提示性参数设置

描述性建模的模型评价

ROC曲线和AUC值

准确率、精准率、召回率、F1-measure

多种评判准则下的预测数结果矩阵

预测性建模及模型评判

MaximAI平台基于海量数据的描述性探究建模结果,通过对模型和数据的再处理,得到数据的独立化预测性模型,实现了对测试数据的一键式预测。

预测性建模自动化和独立化

预测模型的训练数据处理和模型建立的程式化创建和存储

训练数据所得的预测模型独立分装为分类器

模型结果的显示化表达

测试数据和标签的显示化展示

测试数据的各项结果和测试标准的展示

自主编程及特定场景开发

MaximAI集成了多种编程环境,支持用户的自主开发,以及特定场景的多环境编程,实现针对特定客户的系列业务开发。

集成Scala/Python编程环境,用户自主编程开发

特定场景开发:特定场景的模型开发和模型仓库存储

21世纪的成功企业都在处理大量的数据,但他们会经常面对未文档化(没有注释)的数据源。事实上,有的数据库都是很久以前创建的(通常是15-30年),从那时起,这些数据库就一直在不断增长。而描述他们的文档和任何有关资料不是没有完成就是多年来丢失了。也就是说企业的数据随着企业的发展,并不是越来越齐整,而是变得越来越混乱。在此种情况下,天云的数据中台正好是该企业用户的一剂良药。

但要实现前述数据中台的各种功能,获得数据中台的智能化服务,也不是那个一蹴而就的。在实践中,天云建议用户采用三阶段的方式,以分阶段分步走的方式逐步达成最终的数据中台的建设成果。如下就是我们天云的数据中台最佳实践三部曲:

为此,天云推出了一种轻型的自动化数据治理产品,可以在天云的复杂网络大数据平台Hilbert上利用人工智能技术自动地发现企业各业务系统数据的架构和数据主体,并直接发现跨数据库的表和表、人财物各类数据间的关系,当用户需要做跨数据库的复杂查询时,天云产品可以根据关系图快速生成SQL语句,从而使得企业的技术人员快速从不同的数据库中提取出所需要的数据。

也就是说天云采用一种高维化手段,通过升维数据维度,使得企业可以更好地了解数据的全貌。与二维表相比,无论怎么跳,都在二维索引里面。就算有数据字典,还是用表解释其他的表,比较有效的就是从高维视角看数据。把复杂网络引入进来,用复杂网络的工具来表达复杂的数据结构,用复杂网络的方法来自动获取业务调用关系,我知道你这个部门和那个部门的关系,然后有哪些业务系统,那些业务系统下有哪些表,然后他们之间的业务逻辑是怎样的。

天云ADG采用自动化的数字手段,采集属性,表的主键、外键,SQL可以被解析,SQL解析和存储过程可以自动化地定义到你的业务的连接,这些方法就可以快速构建高维的数据结构。

此外天云采用机器学习的方法自动发现数据关系,这对数据的文档化、理解、管理和保护至关重要。更具体地说,ML可以帮助企业自动发现整个组织架构中的数据的位置、数据的移动和流向。这种增强的数据发现可以更有效地揭示复杂的数据关系、改进数据可视化和加速数据准备过程成为可能。

天云的ADG应用程序采用机器学习方法可以超越人类管理数据的能力,因为这些它能够:

检测某些人类难以识别的特征类型

快速分析大量数据,即使是TB级的数据

识别模糊匹配模式,即识别在特定数据集中具有的可能的隶属关系,而不是由清晰数据集关联定义的绝对隶属关系

容易识别数据中的错误,从而避免错误结论

实际上,天云的ADG产品远远超出了简单地理解数据目录和业务术语表,它本质上使数据能够通过识别自然产生于数据的分类来为自己说话。因此,这些解决方案将理解底层数据并实际定义所需的元数据类型,而不是试图将数据分组到已建立的元数据分类中。

数据治理完成后,相当于与企业知道了要在哪里取数据,为前台业务提供数据服务,但如果还是采用每做一次服务都做一次数据的ETL,显然会大大影响工作进度,如果能够不再移动数据,而是只需要让各种各样的新型业务围绕着数据工作,就能够更好地为用户服务。也就是我们是移动代码还是移动数据。

以某银行的客户积分为例,需要将客户的积分分析进行统计计算,首先要花1个半小时把数据移动到数仓,再等待数仓计算一个半小时之后,再将结果返回应用系统提供联机事务处理。这种时效性难以满足即时反馈的客户需求。

伴随着用户对数仓消费化的需求,数据的鲜活性与复杂性出现日益交错的矛盾,因此在技术上一款能够同时支持OLTP(在线事务处理)与OLAP(在线分析处理)的数据库应运而生,这即是Gartner提出的HTAP数据库,涵盖大部分行业应用的需求,一站解决数据鲜活性与复杂性的交错矛盾。而天云的HTAP分布式系统融合了TP联机事务和AP的分析引擎,使得效率更优,架构更优;融合之后完成和联机、分析、建模一体功能。保持了数据鲜活性需求。

再以某商业银行实时流水交易业务可视化展示项目为例,在该项目中使用了Kafka和SparkStreaming流式处理框架,在该框架中成功地引入了天云大数据HTAPHubble数据库,在大数据环境下通过和Kafka,SPARKStreaming等组件的深度融合,成功地实现了对互联网用户交易报文数据的实时采集,经过一系列的处理之后,最终有HTAP数据库提供数据可视化展示的支持,达到了预期功能目标。

通过使用HTAP数据库,首先,数据不必从运营数据库转移到数据仓库。其次,交易数据在创建时可用于分析。第三,从分析聚合中挖掘总是指向新的HTAP应用程序数据。最后,您可以消除或至少减少对相同数据的多个副本的需求。从而达到了数据的融合和流动。

在解决了从哪里取数据,如何更好地读取数据的情况下,下一步就是如何能更好地利用好这些数据。答案就是将人工智能引入到数据分析中,就是用AI替代BI。

2017年,亚马逊CEOJeffBezos在致股东的公开信中,指出“人工智能已经进入到一个能够准确概括复杂商业实践和流程的阶段。”。机器的角色从自动化执行人类意识、人类的指令,已经进化到可以面向不确定性的过程,通过给定输入和输出,通过训练和学习,帮助人类编出用于预测的程序——数学模型。

在AI中,包括聪明的AI和有学识的AI两种。聪明的AI是具备计算推理能力的机器学习,是无记忆载体的;有学识的AI就是具备表示学习能力的图计算/知识图谱和复杂网络,是有记忆载体的。

天云从2014年开始投入人力研发AI产品工具,打造了特征工程,模型孵化平台和模型运行平台三款产品,实现模型自动化流程线。即Kaleido——MaximAI——Gare。这些就是机器学习的平台。

天云还从2016年开始投入研发了复杂网络Hilbert产品。该产品是基于主流的Hadoop大数据技术,并结合网络科学技术应用的需求,自主研发了的一套完整支持海量“网络拓扑结构数据“存储和管理的集群平台系统,底层采用分布式存储和处理技术,可以根据增加的数据集大小和用户访问量弹性扩展,支持图数据的在线和离线分析和查询。

这些AI技术融合入数据中台,就可以让用户获得智能化服务的能力。非人工智能专业的行业专家,可以熟练使用天云开发的系列人工智能工具,不需要编写一行代码,就可以以托拉拽的方式,构建自己的业务模型,开发基于真实数据的AI业务应用。

THE END
1.数据中台有哪些层帆软数字化转型知识库数据中台通常包括数据接入层、数据存储层、数据处理层、数据服务层、数据治理层、数据应用层等。数据接入层负责将各种数据源的数据接入中台,数据存储层则存储和管理这些数据,数据处理层对数据进行清洗、转换和加工,数据服务层提供数据查询和分析接口,数据治理层负责数据的质量和安全管理,数据应用层将数据应用于具体业务场景https://www.fanruan.com/blog/article/659389/
2.数据中台到底包括什么内容一文详解架构设计与组成01数据中台功能架构 数据中台建设是一个宏大的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作,本节重点从物理形态上讲述企业的数据中台应该如何搭建。一般来讲,企业的数据中台在物理形态上分为三个大层:工具平台层、数据资产层和数据应用层(见图4-2)。▲图4-2数据中台功能架构 1.工具平台层 工具https://baijiahao.baidu.com/s?id=1683679836117359447&wfr=spider&for=pc
3.大数据学习笔记1:数仓数据湖数据中台狗哥的专栏大数据数据仓库数据湖数据中台 赞6收藏5 分享 阅读8.2k更新于2021-06-18 泊浮目 4.9k声望1.3k粉丝 ? 上一篇 大数据学习笔记0:大数据基本框架 下一篇 ? 大数据学习笔记2:现代数据湖之Iceberg 引用和评论https://segmentfault.com/a/1190000039970684/
4.马蜂窝大数据架构详解:小白都能懂的数据仓库与数据中台马蜂窝数据仓库遵循标准的三层架构,对数据分层的定位主要采取维度模型设计,不会对数据进行抽象打散处理,更多注重业务过程数据整合。现有数仓主要以离线为主,整体架构如下: 如图所示,共分为 3 层:业务数据层、公共数据层与应用数据层,每层定位、目标以及建设原则各不相同。 https://www.51cto.com/article/607919.html
5.数据中台管理系统数据中台 了解更多 立即咨询 星环数据中台解决方案聚合跨域数据,对数据进行清洗、转换、整合,实现数据标准化、集成化、标签化,沉淀共性数据服务能力,以快速响应业务需求,支撑数据融通共享、分析挖掘和数据运营,创造业务价值。 数据中台管理系统更多内容 行业资讯 https://www.transwarp.cn/keyword-detail/9432-37
6.数据中台到底是什么?说来也奇怪,网上很难找到数据中台的更科学解释,能找到的大多也不够清晰,与大数据平台有千丝万缕的关系,笔者最近正好在思考这个问题,特此分享于你,当然仁者见仁,智者见智了。 所谓数据中台,即实现数据的分层与水平解耦,沉淀公共的数据能力,笔者认为可分为三层,数据模型、数据服务与数据开发,通过数据建模实现跨域数据整https://www.jianshu.com/p/f8a7c33709b3
7.百度爱番番实时CDP建设实践随着营销3.0时代的到来,以爱番番私域产品来说,主要是借助强大的CDP为企业提供线上、线下数据的打通管理的同时,企业可以使用精细化的客户分群,进行多场景的增育活动(比如自动化营销的手段,节假日促销通知,生日祝福短信,直播活动等等)。更重要的是,企业可以基于纯实时的用户行为进行更加个性、准确、及时的二次实时营销,https://www.imooc.com/article/323371
8.数仓到底要分多少层?彭文华特意放上实时数仓的架构图,就是想说明一下无论是实时数仓还是离线数仓,架构都是一样的,该分几层分几层。只不过实时数仓用的是Kafka等MQ作为实时存储介质。 搜狐5层数据仓库架构: 来源于搜狐公开PPT 这是搜狐的5层数据仓库架构。之所以放搜狐的案例,是因为这里有一个STG层。这边把ODS细分为STG和ODS。STG是数据缓https://www.niaogebiji.com/article-71735-1.html
9.企业级大数据中台架构实战3为了面向业务服务服务建模,为了整合资源,为了让数据复用,为了让数据的价值得到更好的分析挖掘,为了,我们设计了下面大数据中台分层架构。 大数据中台总体分层架构耦合性比较低,分为PAAS(platform as a service)层、 DAAS (data as a service)层、DA(data application)层共三层架构。 数据https://blog.itpub.net/69925873/viewspace-2889139/
10.收藏!数据建模最全知识体系解读在业务系统中,通常面对业务库的随机读写,目前主要是采用三范式(3NF)模型存储数据。 而在数据仓库的建模过程中,由于主要是数据的批量读取操作,但是事物并不是我们所关心的,主要是关注数据的整合以及查询处理性能,因此会采用其他的建模方法,以Kimball维度建模最为经典。 六、Kimball和Inmon架构 6.1 Inmon架构 辐射状企业https://zhuanlan.zhihu.com/p/300643260
11.超全面的数据可视化设计指南:风格篇优设网总结了商业项目中遇到的一些可视化案例以及科幻可视化风格,大体的将其分为三个大类:传统风格、HUD 风格、FUI 风格。 传统酷炫风格 传统狭义上的数据可视化, 更多是纯图形去代表数据,通过图形去展示数据,直观的展示所需要表现的指标。数据可视化也有很多分类, 不过也许你也懒得了解了。 https://www.uisdc.com/visual-design-style
12.王伟:“城市大脑”让城市更智慧新华访谈合肥的“城市大脑”三层架构比较明确,所有的基础设施由第一层政务云提供,第二层是数据共享交换、能力提供层,第三层应用层,鼓励所有委办局百花齐放,建设各种应用。“城市大脑”目前运行情况良好,支持了合肥市营商环境的改善、政务服务的改善,城市中台目前已经建设了1627个应用能力,为全市各个委办局的便民系统http://www.ah.xinhuanet.com/fangtan/sjww.htm
13.中台再「升温」,下一站是哪?2、云徙是双中台(业务中台与数据中台)模式,更偏重行业解决方案。 3、数澜偏重解决方案,近年来又与金蝶合作密切,金蝶认为企业数字化正在从ERP(企业资源系统)向以数据中台为核心的EBC(企业业务能力)转型,因此双方的合作是在向未来发出邀请。 4、奇点云发力零售等领域,其数据中台更偏重零售的行业产品。 https://36kr.com/p/1416543565485698
14.数据中台建设五步法系统都是为应用而生的,数据中台也不例外。要构建一套数据中台服务于企业内部和外部运营,需要有成熟的建设方法论作为指导。数据中台建设方法论可分为高阶规划、系统设计、开发实施、试运行和持续运营 5 个阶段。 1、高阶规划 数据中台规划阶段可细分为业务架构师主导的业务规划和数据架构师主导的数据规划。由业务规划https://www.esensoft.com/industry-news/dx-29423.html
15.数据中台演进的四个阶段奇点云 CEO 张金银是阿里巴巴第一个数据仓库的创建者,他认为数据中台的意义在于降本增效。最近,他基于阿里巴巴的数据处理过程分享了数据中台演进的四个阶段,以下为重点内容。 阿里巴巴的数据处理经历了四个阶段,分别是: 数据库阶段,主要是 OLTP(联机事务处理)的需求; https://time.geekbang.org/column/article/119907
16.5分钟看懂数据中台的典型架构数据中台架构数据转换工具也是关键组成部分之一,负责将数据从一种格式转变为另一种格式,以便后续的处理和分析。常见的数据转换工具有ApacheNifi、Talend 等。这些工具通常具备高效的处理性能和灵活的转换规则,能够应对复杂的数据转换需求。 四、数据服务层 数据服务层在数据中台当中占据重要地位,主要负责以 API、数据接口等方式将处理https://blog.csdn.net/oOBubbleX/article/details/142819951