品《阿里巴巴大数据实践大数据之路》一书(下)

今天继续谈阿里的这本书,包括数据服务平台、数据挖掘平台、数据建模、数据管理及数据应用,希望于你有启示。

1、数据服务平台

数据服务平台可以叫数据开放平台,数据部门产出海量数据,如何能方便高效地开放出去,是我们一直要解决的难题,在没有数据服务的年代,阿里的数据开放的方式简单、粗暴,一般是直接将数据导出给对方,我想,现在大多公司的开放应该也是如此吧,虽然PaaS喊了这么多年,但真正成就的又有几个?

即使如阿里,在数据开放这个方向上的探索和实践,至今也有7个年头了,任何关于数据开放毕其功于一役的做法都将失败,任何一次数据开放的改进都是伴随着对于业务理解的深入而成长起来的。

阿里的数据开放经历四个阶段,DWSOA、OpenAPI、SmartDQ和OneService:

DWSOA:是数据服务的第一个阶段,也就是将业务方对数据的需求通过SOA服务的方式暴露出去,由需求驱动,一个需求开发一个或者几个接口,编写接口文档,开放给业务方调用。

这种架构简单,但接口粒度很粗,灵活性不高,扩展性差,复用率低,随着业务需求的增加,接口的数量大幅增加,维护成本高企,同时,开发效率不高,一个接口从需求开发到上线,按阿里说法至少1天,其实远远不止,如果要变更1-2个字段,也要走一整套流程,这应是大多数公司的常态。

OpenAPI:DWSOA的明显问题是烟囱式开发,很难沉淀共性数据,OpenAPI将数据按照统计粒度进行聚合,同样维度的数据,形成一张逻辑表,采用同样的接口描述,针对某一类的查询,只需要调用一个接口即成,这种形式可以有效收敛接口,笔者公司对外服务很多也是这种形式,比如通过封装几十个位置服务API,统一对外提供灵活查询能力,但其实复杂逻辑的接口还是需要采用一事一议的方式,即第一种方式。

SmartDQ:数据维度是非可控的,随着数据的深度使用,OpenAPI显然会急剧增加,维护映射的压力会很大,阿里于是再抽象一层,用DSL(DomainSpecificLanguage,领域专用语言)来描述取数需求,支撑标准的SQL,至此,所有的简单查询服务减少到另一个接口,这降低了数据服务的维护成本。

传统的方式查问题需要查源码,确认逻辑,而SmartDQ只需要检查SQL的工作量,并可以开放给业务方通过写SQL的方式对外提供服务,SmartDQ封装了跨域数据源和分布式查询功能,通过逻辑表屏蔽了底层的物理表细节,不管是HBASE还是MySQL,是单表还是分库分表,这极大简化了操作的复杂度。

其实中国移动经营分析规范很早就提出了即席查询、伪代码等的封装方式,笔者企业也通过自助取数的方式在实践,阿里在落地上做的比较好,其是集大成者,传统企业的大数据类产品往往只能在单点实现突破,无法用一只团队始终如一的坚持做一个产品,比如企业的自助取数平台在设计时没想到需要支撑大数据时代的跨异构数据库,由于当初的自助取数团队和当前的DACP的团队完全是两拨人,很难实现既有能力的传承。

阿里的思路说不上很超前,但它不仅落地了,而且在不停演进,这也许就是企业自主研发的价值,它的产品始终流着同样的血液。

OneService:SQL显然无法解决复杂的业务逻辑,SmartDQ其实只能满足简单的查询服务需求,正如我们的自助取数也仅能满足50-60%的临时取数一样,企业遇到的场景还有以下几类:个性化的垂直业务场景、实时数据推送服务、定时任务服务,OneService主要是提供多种服务类型来满足客户需求,分别是OneService-SmartDQ、OneService-Lego、OneService-iPush、OneService-uTiming。

Lego被设计成一个面向中度和高度定制化数据查询需求,支持插件机制的服务容器,笔者理解就是提供定制环境和暴露接口,你要怎么做就怎么做。

iPush应用产品是一个面向TT、MetaQ等不同消息源,通过定制过滤规则,向Web、无线等终端推送消息的中间件平台。

Utiming是基于在云端的任务调度应用,提供批量数据处理服务,支撑用户识别、用户画像、人群圈选三类服务的离线计算以及服务数据预处理、入库,这个感觉是非常个性化的一个应用。

2、数据挖掘

阿里构建了一套架构于阿里云MaxCompute、GPU等计算集群之上,汇聚了阿里大量优质的分布式算法,包括数据处理、特征工程、机器学习算法、文本算法等,可高效完成海量、亿级维度数据的复杂计算,同时提供一套极易操作的可视化编辑页面,大大降低了数据挖掘的门槛,提高了建模效率。

其选择的计算框架是MPI,其核心算法都是基于阿里云的MaxCompute的MPI实现的。

其算法平台也集成了绝大部分业界主流的机器学习算法。

让笔者有点吃惊的是阿里还搞了数据挖掘中台,这个笔者以前也想做过,但后来发现跟数据仓库的融合模型(比如宽表)有很多类似之处,因此没坚持下去。

阿里将数据中台分为三层:特征层(FDM)、中间层和应用层(ADM),其中中间层包括个体中间层(IDM)和关系中间层(RDM),如下图所示:

FDM层:用于存储在模型训练常用的特征指标,这个跟融合模型的宽表类似,笔者很好奇阿里的数据仓库的DWS仅仅是汇聚层还是包括了宽表,否则跟这个FDM是有很大雷同的。

IDM层:个体挖掘指标中间层,面向个体挖掘场景,用于存储通用性强的结果数据,其实在笔者看来就是通用标签库的源表,那个ADM就是个性标签的源表,不知道有没理解对。

数据挖掘这一章很短,缺乏一些细节,想来跟部门的定位有关,数据挖掘一般应用导向,核心的东西大多可能掌握在各类业务部门的挖掘师手中,笔者对于数据挖掘中台的实际价值还是有疑问的,毕竟挖掘千变万化,数据仓库建模好理解,但数据挖掘搞中台如何能跟得上变化?

3、数据模型

数据建模在这本书占据了三分之一篇幅,可见其重要性,首先谈谈阿里数据模型的历史吧,其实跟笔者还有很多渊源,因为2005-2007年间为公司服务的某合作伙伴大量BI人员跳槽到了阿里,据说构建了阿里的一代数据仓库系统,这些人员很多跟笔者共事过,现在读来,还是有点感慨。

(1)历史发展

第一阶段:完全应用驱动的时代,数据完全以满足报表需求为目的,将数据以与源结构相同的方式同步到Oracle,这跟笔者当年刚进公司的情况类似。

第二阶段:随着阿里业务的快速发展,数据量飞速增长,性能成为一个较大问题,需要通过一些模型技术改变烟囱式的开发模型,消除数据冗余,提升数据一致性,来自传统行业的数据仓库工程师开始尝试架构工程领域比较流行的ER模型+维度模型方式应用到阿里巴巴集团,构建出一个四层的模型架构,即ODL(数据操作层)+BDL(基础数据层)+IDL(接口数据层)+ADL(应用数据层)。ODL与源系统一致,BDL希望引入ER模型,加强数据的整合,构建一致的基础数据模型,IDL基于维度模型方法构建集市层,ADL完成应用的个性化和基于展现需求的数据组装,这个对应笔者所在企业的当前的ODS,DWD,DWA/DWI及ST层,但阿里在构建ER时碰到了较大的挑战,主要是业务快速发展,人员快速变化、业务知识功底的不够全面,导致ER模型产出困难。

阿里得出了一个结论:在不太成熟、快速变化的业务层面,构建ER模型的风险很大,不太适合去构建ER模型,说的有点道理,比如运营商业务相对比较稳定,国际上也有一些最佳实践,从概念-领域-逻辑-物理的全局把控上还能应对,但面对变化,的确有其限制。

第三个阶段:阿里业务和数据飞速发展,迎来了hadoop为代表的分部署存储计算的快速发展,同时阿里自主研发的分布式计算平台MaxCompute也在进行,因此开始建设自己的第三代模型架构,其选择了以Kimball的维度建模为核心理念的模型方法论,同时进行了一定的升级和扩展,构建了阿里巴巴集团的公共层模型数据架构体系。

阿里模型分为三层:操作数据层(ODS)、公共维度模型层(CDM)和应用数据层(ADS),模型层包括明细数据层(DWD)和汇总数据层(DWS)。

ODS:把操作系统数据几乎无处理的存放到数据仓库系统中。

CDM:又细分为DWD和DWS,分别是明细数据层和汇总数据层,采用维度模型方法作为理论基础,更多采用一些维度退化方法,将维度退化至事实表中,减少事实表和维表的关联,提高明细数据表的易用性,同时在汇总数据层,加强指标的维度退化,采取更多的宽表化手段构建公共指标数据层,提升公共指标的复用性。

ADS:存放数据产品个性化的统计指标数据,根据CDM与ODS加工生成。

具体见如下模型架构图:

关于模型的分层每个行业都可以基于自己的实际去划分,没有所谓的最佳实践,比如笔者所在的企业,源端维度一致性非常好,DWD主要做标准化工作,屏蔽ODS变化导致的上层改动,关于维度建模的理念更多体现在DWA/DWI层中。

(2)模型实施

OneData是阿里的模型设计理论,我觉得写得很好,你看完这个过程,基本会搞清楚维度建模的各个步骤,强烈建议结合后面的维度和事实表建模进行精读,主要步骤如下:

数据调研:业务调研需要对业务系统的业务进行了解,需求分析则是收集分析师运营人员对数据或者报表的需求,报表需求实际是最现实的建模需求的基础。

模型设计:模型设计主要包括维度及属性的规范定义、维表、明细事实表和汇总事实表的模型设计。

最后,用一张图镇楼,这张图可值回书价哦。

本书后面用两大节来介绍维度设计和事实表设计,由于过于细节,笔者就不再展开了,如果你是建模人员,一定要好好看看,也可以参考《数据仓库工具箱-维度建模权威指南》这本书,一般在建模过程中你碰到的很多问题它都有解决策略,你未来可能碰到的建模问题,这本书也提及了很多,是建模人员的宝贵的实战参考材料。

4、数据管理

数据管理涉及的东西很多,这本书具体提到了元数据、计算管理、存储和成本管理和数据质量,相对内容比较单薄,我挑两点说一下:

一直听说阿里财大气粗,所有数据都永久保留,其实是谬传,人家也是节约过日子的,看下图你就知道了:

应对层出不穷的数据和应用,数据工程师其实很难确认哪些数据是最重要的,需要优先保障,阿里巴巴提出了数据资产等级的方案,旨在解决消费场景知晓的问题,其将数据划分为五个等级,毁灭性质、全局性质、局部性质、一般性质及未知性质,代号从A1到A5。

5、数据应用

阿里主要介绍了对外的数据产品平台生意参谋和服务于内部的数据产品平台。

生意参谋本质上就是为自己的渠道提供的增值服务,是很成功的一款决策支持产品,体现了一个产品如何从小做起,逐步长成一个庞然大物的过程:

对内数据产品的演进几乎是每一个公司BI系统的发展翻版,但显然它已经长成大树了,从临时取数阶段,到自动化报表阶段(比如BIEE),再到自主研发BI阶段(第三方满足不了自己了),最后到数据产品平台(更加体系化)。

当前阿里的数据产品平台,包括PC和APP版本,共有四个层次,即数据监控、专题分析、应用分析及数据决策。

到这里,基本就读完了,整本书都是经验之谈,读下来闪光频现,建议可以多读几遍。

这本书也引发了笔者一些思考,为什么他们能做成?我们传统企业大数据的差距在哪里?是机制流程问题?数据产品的传承问题?合作伙伴的问题?核心能力自控问题?业务对于数据产品的驱动力问题?小步快跑落地问题?企业产品的规划问题?

有些遗憾的是,这本书更多是就技术谈技术,鲜有数据内容方面的深度阐述,跟直接的价值创造还有距离,比如标签库的管理,核心算法研究,DMP怎么做的等等,当然这个可能跟阿里的大数据管理组织分工有关系,也涉及企业的一些商业秘密。

其实要想了解的东西还有很多,包括机制流程,团队分工,部门协同,中台战略在大数据的落地等等,希望有机会学习。

---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……

THE END
1.智能数据挖掘:开启现代信息时代的智慧之门算法聚类数据仓库现数据挖掘是从大量数据中提取有用信息和知识的过程。随着信息技术的迅猛发展,数据的产生速度和规模不断扩大,使得数据挖掘成为当今社会不可或缺的工具。本文将深入探讨数据挖掘的基本概念、技术方法、应用领域以及未来的发展趋势。 数据挖掘的基本概念 Basic Concepts of Data Mining https://www.163.com/dy/article/JEQ1N6SJ0512BOIV.html
2.数仓数据挖掘平台【数仓】数据挖掘平台 1.数据挖掘中台系统 11 挖掘数据中台 数据中台分为三层:特征层、中间层和应用层。 特征层 FDM:存储特征指标,统一进行清洗和去噪,提高机器学习特征工程环节的效率。 个题中间层 IDM:存储通用性强的结果数据,面向个体,比如商品、卖家、买家。https://blog.csdn.net/weixin_45545090/article/details/124363403
3.大数据挖掘建模平台TipDM数据挖掘建模平台(https://python.tipdm.org/)是由广东泰迪智能科技股份有限公司自主研发打造的可视化、一站式、高性能的数据挖掘与人工智能建模服务平台,致力于为使用者打通从数据接入、数据预处理、模型开发训练、模型评估比较、模型应用部署到模型任务调度的全链路。平台内置丰富的机器学习、深度学习、人工智能算法http://www.tipdm.com/dsjwjjmpt/index.jhtml
4.数据挖掘分享怎么做的快帆软数字化转型知识库数据挖掘平台如DataRobot、RapidMiner和KNIME等,集成了丰富的数据处理和分析功能,提供了可视化界面和自动化流程,可以方便地进行数据预处理、建模和评估。利用自动化工具和平台,可以减少人工干预,加快数据挖掘的速度,提高工作效率。 七、硬件加速 硬件加速是提升数据挖掘速度的重要手段。利用GPU(图形处理单元)进行数据挖掘,可https://www.fanruan.com/blog/article/591134/
5.现在市面上有哪些好用的数据挖掘工具或者平台?其中包含了多种可训练的模型:逻辑回归、决策树、随 机森林、朴素贝叶斯、支持向量机、线性回归、K均值、DBSCAN、高斯混合模型。除提供主要算法和建模功能外,思迈特软件Smartbi Mining数据挖掘平台还提供了必不可少的数据预处理功能。还包括字 段拆分、行过滤与映射、列选择、随机采样、过滤空值、合并列、https://zhidao.baidu.com/question/1831923114597754500.html
6.数据挖掘平台pmt51CTO博客已为您找到关于数据挖掘 平台 pmt的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及数据挖掘 平台 pmt问答内容。更多数据挖掘 平台 pmt相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。https://blog.51cto.com/topic/5272bccfae83125.html
7.bdrace数睿思数据挖掘竞赛平台电子商务沙盘网站鉴赏服务范围:数睿思”数据挖掘竞赛平台(bdrace),专注高校数据挖掘竞技,致力于打造完整大数据生态系统。依托大型的全国性的数据挖掘赛事,汇聚政府、企业、机构、高校、风投等多方资源,为企业提供最优的大数据解决方案,解决企业实际项目需求,选拔高校优秀人才;为高校提供最优的大数据课程教学方案,推动高校数据挖掘实践教学;同时,平https://www.300.cn/anliku/anli_4956563.html
8.物联网数据挖掘研究论文数据层是物联网云计算平台中数据挖掘技术的核心环节,物联网自身具有一定的异构性与海量性特点,由此在数据层内将物联网设备所收集到的所有数据信息进项储存处理与分析的能力是基于云计算的物联网数据挖掘平台的重点。数据层内部涵盖了数据源转化与存储两个主要部分,其中数据源转化所指的是对物联网异构性的数据化进行https://www.unjs.com/lunwen/f/20190123020542_1865768.html
9.数据挖掘数据观中国大数据产业观察数据观是一个大数据新闻门户网站,专注大数据、大数据分析和大数据应用,同时涉及移动互联网、征信、云计算等领域,为读者提供专业的大数据信息交流平台。https://www.cbdio.com/node_2735.htm
10.模型交易平台分类筛选 行业 模型应用行业 农业 电力 电信 地质 医疗 环保 交通 政务 安保 教育 金融股票 财会 人资 制造 电商 供应链 旅游 新闻传播 零售 汽车 其他 热门搜索: 模型python数据集 商品 购物车 推荐模型口碑好物,无限回购 信用卡客户复购分析 ¥499.00销量 0 https://www.tipdm.cn/
11.数据挖掘分析平台(DMPlus)DMPlus提供一个开放的数据挖掘分析平台,极易操作的可视化编辑页面,降低数据挖掘门槛,通过拖拽式流程设计,快速实现各类数据挖掘应用。提供数据计算脚本管理,提供计算任务管理,提供数据计算任务执行情况查看,包括执行时间、执行耗时、计算结果和异常情况等。 通过平台数据挖掘建模,帮助用户参与业务数据价值挖掘,高效辅助和驱动高http://www.sudytech.com/_s2/4799/list.psp
12.数据挖掘:实用机器学习工具与技术(原书第3版)中文/英文pdf完整版[138第一部分数据挖掘简介 第1章绪论 第2章输入:概念、实例和属性 第3章输出:知识表达 第4章算法:基本方法 第5章可信度:评估学习结果 第二部分高级数据挖掘 第6章实现:真正的机器学习方案 第7章数据转换 第8章集成学习 第9章继续:扩展和应用 第三部分Weka数据挖掘平台 https://www.jb51.net/books/581148.html
13.PMML研究与数据挖掘系统平台设计PMML研究与数据挖掘系统平台设计,数据挖掘,软件体系结构, PMML,关系数据库的广泛使用促成了数据挖掘技术的诞生。数据挖掘系统在金融业,电信和零售等有着巨大的应用前景。随着大量数据挖掘系统的https://wap.cnki.net/touch/web/Dissertation/Article/-2005144819.html
14.软件品质评测系统数据挖掘处理平台OSCHINA软件品质评测体系建立之后,在进行评测之前首先要确定评测使用的数据,这就需要数据挖掘平台发挥作用了,本文将以输入法评测语料制作为例介绍我们的评测数据挖掘处理平台。 1 ● 数据挖掘处理原则 ● 全面性 使用场景 依照不同用户需要的打字环境的差别,结合当前使用频率较高的几种应用,尽可能全面地覆盖用户使用的打字场景https://my.oschina.net/u/2512041/blog/4376907
15.什么是大数据挖掘平台?腾讯云开发者社区什么是大数据挖掘平台 今天的社会已进入大数据时代,数据挖掘已成为各种应用领域的重要技术,大学数据挖掘课程的开放已经出现。数据挖掘课程整合了多门学科知识。该课程包括各种理论知识,也离不开相关的实用技术。整个教学过程是培养和提高学生全面创新和解决问题的能力。过去,教学过程理论上强,枯燥,学生的积极性普遍不高,不https://cloud.tencent.com/developer/news/334998
16.中信银行信用卡中心智慧挖掘开发者建设平台自主可控的路径提升:一站式平台的建设为科技部门带来了自主可控的数据挖掘平台,匹配大数据发展趋势的技术路径。 数据挖掘协同模式的改变:通过一站式平台,业务部门数据挖掘人员可以更好的共享成果,分享经验,快速学习与培训,大大提升卡中心的数据运营能力。 数据挖掘氛围的提升:通过一站式平台组织数据挖掘算法竞赛,评估优秀https://www.sefonsoft.com/case/detail?sort_id=13&id=21
17.大数据平台数据挖掘星环科技为您提供大数据平台 数据挖掘相关内容,帮助您快速了解大数据平台 数据挖掘。如果想了解更多大数据平台 数据挖掘资讯,请访问星环科技官网(www.transwarp.cn)查看更多丰富大数据平台 数据挖掘内容。https://www.transwarp.cn/keyword-detail/30194-1
18.和鲸ModelWhale赋能研究及业务,通过挖掘分析风电场景的海量数据,为业务发展提供参考信息金风科技董事长武钢表示“与工业化时代不同,数字化时代下,风电企业要通过数字化技术的应用,实现从结果管理向过程管理转变”金风科技希望更多的业务可以用“软件+数据平台+协同”的方式来解决问题,需要在云端构建可协同的数据挖掘分析平台,为业务的https://www.modelwhale.com/client/117
19.DataMiner博易数据挖掘平台登录 自动登录 登录 忘记密码? 邀请码注册 屏幕最佳分辨率:1440*900或以上,推荐使用Chrome、Firefox、Opera、Safari、IE9或以上版本浏览器 Copyright ? 2016 - 2024 珠海横琴博易数据技术有限公司 技术支持 https://dataminer.boyidata.cn/login.html