数据中台演进的四个阶段

口述者行在(张金银),奇点云CEO,阿里巴巴第一个数据仓库的创建者,阿里巴巴第一个消费者数据平台TCIF的创建者,阿里云数据智能平台数加的创始人,2004年以数据技术专家身份加入阿里巴巴以来,12年来一直投身于大数据事业。2016年离开阿里巴巴,创立奇点云,旨在用「AI驱动的数据中台」赋能线下,让商业更智能。

(奇点云CEO-行在)

2009年,阿里云开启了中国的云时代。

十年市场教育,中国的公有云市场也已经从无到有,迈过了300亿元大关,预计到2021年更是能达到900亿元的规模。

「数据中台」已经从一个技术词汇,慢慢转变成为企业界的共识:如果想要在信息商业中拥有一席之地,就必须要借助云计算和数据的力量,完成企业的数字化转型。

只是,数据到底在转型中扮演什么样的角色,要如何利用好数据,数据上云后如何支持业务,企业需要哪些核心能力?这些问题,对于大多数的非技术业者而言,仍然是知其然不知其所以然。

一般而言,「数据上云」更多强调的是数据的存储和计算,而要让数据能够赋能业务,则更需要「数据中台」来进行数据处理,进而支持业务决策和优化运营。

这是「数据中台」和「数据上云」最大的不同。

作为数据业务领域的先行者,阿里云总裁张建锋,在最新的演讲中,把数据智能作为数据处理的核心能力:

这里面传达出了几个核心信息:

1.云计算为数据智能提供了基础算力;

2.行业(经验转化而来的)算法是智能处理数据的主要工具;

3.数据+智能的平台和能力,前提是基础设施的云化和核心技术的互联网化;

这是阿里云所认为的数据处理的能力框架,而在目前的市场上,我们通常把这种能力框架称为「数据中台」。

舆论往往会更强调技术的作用,强调技术对业务的推动作用,但事实上,在商业领域,更多的时候,技术发展都是跟着业务走,技术的发展常常来自于业务需求和业务场景的倒逼。

例如,随着越来越多的企业把业务流程上云,日益增长的数据存储和仍然稀缺的数据应用就成为了企业的主要矛盾之一,而且,这种矛盾不是一天就能够解决,需要从业务、技术、组织几个不同的领域一起来探寻数据的解决方案。

简单来说,「数据中台」就是这一系列解决方案的基础设施。

数据中台不是一套软件系统,也不是一个标准化产品,站在企业的角度上,数据中台更多地指向企业的业务目标,也即帮助企业沉淀业务能力,提升业务效率,最终完成数字化转型。直白点说,中台只讲技术,不讲业务,都是大忽悠。

这么多年来,互联网的发展都建立在更低成本、更高效率的连接之上,线下也一定会复制线上的发展逻辑,用更多连接带来更多的数据。

比如,通过摄像头,我们就可以低成本建立顾客的FaceID档案,从而丰富人和店铺的关系数据,店铺进而可以根据数据分析结果,给顾客提供更有针对性的服务项目。

在数据史上,2015年是一个重要的关口:2015年全年产生的数据量等于历史上所有人类产生数据的总和,这是数据从乘数型增长全面转向了指数型增长的方向标,海量数据处理成为全人类的挑战;

未来学家认为,机器智能最终会超越人的智慧,而这两者的临界点就被称为「奇点」。从这点来说,我们可以认为,阿里巴巴已经跨越了奇点,真正成为一家数据公司。

下面我们从数据的角度来梳理下这个过程。

阿里巴巴的数据处理经历了四个阶段,分别是:

一、数据库阶段,主要是OLTP(联机事务处理)的需求;

二、数据仓库阶段,OLAP(联机分析处理)成为主要需求;

三、数据平台阶段,主要解决BI和报表需求的技术问题;

四、数据中台阶段,通过系统来对接OLTP(事务处理)和OLAP(报表分析)的需求,强调数据业务化的能力。

(数据中台演进的四个阶段)

第一个阶段是数据库阶段。

淘宝还只是一个简单的网站,淘宝的整个结构就是前端的一些页面,加上后端的DB(DataBase,数据库),只是个简单的OLTP系统,主要就是交易的事务处理。

这里要说明的是,OLTP的交易场景和OLAP的分析场景区别在于,前者强调高并发、单条数据简单提取和展示(增删改查),后者对并发的要求不高,但是需要打通不同的数据库,比如ERP、CRM、行为数据等等,并且能够进行批量的数据处理,也就是通常说的低并发,大批量(批处理)、面向分析(query+计算,用于制作报表)。

随着淘宝用户超过100万,分析需求的比重就越来越大。淘宝需要知道它的交易来自于哪些地区,来自于哪些人,谁在买淘宝的东西等等,于是,就进入了数据处理的第二个阶段。

第二个阶段是数据仓库阶段。

正如前文所述,OLTP和OLAP对数据存储和计算的需求非常不一样,前者处理的是结构化的交易数据,而OLAP对应的是互联网数据,而互联网里面数据量最大的是网页日志,90%以上的数据都是点击(log)什么的非结构化的数据,而且数据量已经达到了TB的级别。

针对分析需求,就诞生了数据仓库(DW,DataWarehouse),我2004年加入阿里,用OracleRAC搭建了阿里巴巴第一个DW,解决大量数据的存储和计算需求,也就是去把非结构化的数据转化成结构化数据,存储下来。

这个阶段,DW支持的主要就是BI和报表需求。

顺带提一下,数据库(DB)这时也在从传统DB转向分布式DB。主要原因是以前交易稳定,并发可控,传统DB能满足需求,但是后来随着交易量的增长,并发越来越不可控,对分布式DB的需求也就出来了。

随着数据量越来越大,从TB进入了PB级别,原来的技术架构越来越不能支持海量数据处理,这时候就进入了第三个阶段。

第三个阶段是数据平台阶段,这个阶段解决的还是BI和报表需求,但是主要是在解决底层的技术问题,也就是数据库架构设计的问题。

这在数据库技术领域被概括为「SharedEverything、SharedNothing、或SharedDisk」,说的就是数据库架构设计本身的不同技术思路之争。

SharedEverything一般是针对单个主机,完全透明共享CPU/MEMORY/IO,并行处理能力是最差的,典型的代表SQLServer。

SharedDisk的代表是OracleRAC,用户访问RAC就像访问一个数据库,但是这背后是一个集群,RAC来保证这个集群的数据一致性。

问题在于,OracleRAC是基于IOE架构的,所有数据用同一个EMC存储。在海量数据处理上,IOE架构有天然的限制,不适合未来的发展。阿里巴巴的第一个数据仓库就是建立在OracleRAC上,由于数据量增长太快,所以很快就到达20个节点,当时是全亚洲最大的OracleRAC集群,但阿里巴巴早年算过一笔账,如果仍然沿用IOE架构,那么几年后,阿里的预计营收还远远赶不上服务器的支出费用,就是说,如果不去IOE,阿里会破产。

SharedNothing的代表就是Hadoop。Hadoop的各个处理单元都有自己私有的存储单元和处理单元,

各处理单元之间通过协议通信,并行处理和扩展能力更好。中间有一个分布式调度系统,会把表从物理存储上水平分割,分配给多台服务器。

Hadoop的好处是要增加数据处理的能力和容量,只需要增加服务器就好,成本不高,在海量数据处理和大规模并行处理上有很大优势。

综上,用一个关键词来概括第三阶段就是「去IOE」,建立SharedNothing的海量数据处理平台来解决数据存储成本增长过快的问题。在阿里巴巴,前期是Hadoop,后期转向自研的ODPS。

第四阶段是数据中台阶段。

这个阶段的特征是数据量的指数级增长,从PB迈向了EB级别,未来会到什么量级,我也说不清楚。

主要是因为,2015年之后,IOT(物联网)发展起来,带动了视图声(视频、图像、声音)数据的增长,未来90%的数据可能都来自于视图声的非结构化数据,这些数据需要视觉计算技术、图像解析的引擎+视频解析的引擎+音频解析的引擎来转换成结构化数据。5G技术的发展,可能会进一步放大视图声数据的重要性。

线下要想和线上一样,通过数据来改善业务,就要和线上一样能做到行为可监测,数据可收集,这是前提。线下最大量的就是视图声数据,而这些数据靠人来手工收集,肯定是不靠谱的,依靠IOT技术和算法的进步,最终会通过智能端来自动化获取数据。

要使用这些数据,光有视觉算法和智能端也不行,要有云来存储和处理这些数据,以及打通其他领域的数据。

另一方面,从业务来看,数据也好,数据分析也好,最终都是要为业务服务的。也就是说,要在系统层面能把OLAP和OLTP去做对接,这个对接不能靠人来完成,要靠智能算法。

目前的数据中台,最底下的数据平台还是偏技术的,是中台技术方案的其中一个组件,主要解决数据存储和计算的问题;在上面就是一层数据服务层,数据服务层通过服务化API能够把数据平台和前台的业务层对接;数据中台里面就没有人的事情,直接系统去做对接,通过智能算法,能把前台的分析需求和交易需求去做对接,最终赋能业务。

综合上述两个方面,我认为未来要做好数据中台,只做云或者只做端都不靠谱,需要把两者合起来做。智能端负责数据的收集,云负责数据的存储、计算、赋能。端能够丰富云,云能够赋能端。

未来的数据中台,一定是「AI驱动的数据中台」,这个中台包括「计算平台+算法模型+智能硬件」,不仅要在端上具备视觉数据的收集和分析能力,而且还要能通过FaceID,帮助企业去打通业务数据,最终建立线上线下触达和服务消费者的能力。

真正做到「一切业务数据化,一切数据业务化」。

那么,数据中台是怎么来赋能业务使用数据的呢?这里举一个TCIF的例子。

现在大家可能都认识到了统一消费者数据的必要性,但是在几年前,哪怕是在阿里巴巴,消费者的信息也分散在各个业务中,碎片化、散点化,而业务当时需要把这些分散的人的数据集中起来,进行人群画像。道理很明白,人群画像越清晰,服务就会越精准。

怎么统一消费者数据?

首先,定义埋点规范,同一个人就用同一个标识,ID打通,也就是所谓的OneID;

再次,每个人还有各种网络行为,要如何把这些行为结构化,装到各种框架里面?这个特别难,我们当时主要是跟人类学家合作,一起把行为的分类树做出来。这个分类树非常细,甚至能够把一个人的发质都结构化了。

最后,就需要通过算法模型,把所有的标签都贴回到人上面,当时TCIF用上述方式生产出了3000多个消费者标签。

从TCIF的例子来看,数据中台未来一定需要具备三种能力。

第一是数据模型能力。

在业务层面,业务抽象能够解决80%的共性问题,开放的系统架构来解决20%的个性问题,但同时又要把平台上的业务逻辑分开,因为不同的业务逻辑之间可能有冲突。

这在数据中台就表现为数据的中心化,也就是数据的高内聚、低耦合,需要对共性问题抽象出业务的规则,建立数据模型,一个好的内聚模块能够解决一个事情,同时又要降低模块和模块之间的耦合度,让模块具有良好的可读性和可维护性。

这里的前提是要有真正懂业务能沉淀经验的人,以及要在企业层面开展数据治理,让数据能够准确、适度共享、安全地被使用。

第二是AI算法模型能力。

要实现数据业务化,前提是做到数据的资产化。要能够从数据原油里面,去提炼出可以使用的汽油。

第三是行业的应用能力,也就是我们通常说的数据业务化能力。

和数据中心化类似,数据业务化也需要很强的行业经验来指导,建立合适的业务场景,在场景里面去使用数据,从而体现数据的价值,来大大扩展数据在行业中的应用能力。

在奇点云和某酒类客户的合作过程中,我们最大的收获不是帮助客户完成了数据中台的搭建,而是通过理解客户的业务,把其经验沉淀到数据中台,从而赋能客户更多的端上的创新业务,带来了生意的增量。

最后总结一下,未来的数据中台最重要的不单是数据的存储和计算能力,而是要能从「存、通、用」的角度和业务结合,帮助企业从数据中获取价值,沉淀数据资产,最终用数据赚钱。

THE END
1.互联网发展的四个阶段理想股票技术论坛互联网经历了四个发展阶段,每个阶段都有其独特的特征和里程碑。这些阶段包括初级阶段、扩张阶段、成熟阶段和创新发展阶段。每个阶段的特征都反映了互联网技术的不断进步和应用的广泛普及。 ,理想股票技术论坛https://www.55188.com/tag-thread-8648210-1.html
2.全球能源互联网的发展框架可以概括为一个总体布局两个基本原则全球能源互联网的发展框架可以概括为一个总体布局、两个基本原则、三个发展阶段、四个重要特征、五个主要功能,全球能源互联网将形成由跨州电网、跨国电网、国家泛在( )电网组成。 A. 高压 B. 坚强 C. 自动 D. 智能 相关知识点: 试题来源: 解析 D. 智能 https://easylearn.baidu.com/edu-page/tiangong/questiondetail?id=1819233233595271785&fr=search
3.《月亮上的足迹》1.本文写了一件什么事?请用简洁的语言概括。 ( 报道了人类首次登月的全过程) 2.登月全过程可以分为几个阶段? 四个阶段: 1)升空前的准备 2)飞向月球 1969年7月16日上午火箭推动“阿波罗11号”飞船发射升空 火箭发射后2分42秒第一级火箭脱落,火箭继续上升 https://www.ruiwen.com/doc/148051375.html
4.人防(民防)知识竞赛试题及参考答案道德素养,建设素质优良的人防队伍。为提升人防(民防) 的整体社会影响力、激发广大人防干部职工的积极性、营造 人防(民防)发展的良好环境,为建设美丽、繁荣、和谐四 川凝聚力量,以优异成绩向新中国成立70 周年献礼。 四川省人防(民防)知识竞赛学习资料,分为选择题、 http://rfb.cngy.gov.cn/news/detail/20190610162528569.html
5.职教动态主要有三个特点: 1.完善工程师培养体系 通过实施专项计划,探索通过职业教育培养工程技术人才的规律,形成现场工程师人才培养标准,增强工程基础、通用技术、行动能力培养培训,增强生产工艺、生产方式、生产设备实训实践,增强工程思维、工匠精神、人文素养交叉融合,贯通培养现场工程师,形成为工程技术人才紧缺领域储能赋能的新机https://lgxy.lzmvc.edu.cn/lgxyzjdt/8598.jhtml
6.计算机网络基础知识试题评析:五十多年来,计算机的发展经历了5个重要阶段:大型主机、小型机、微型机、客户机/服务器(局域网)、互联网阶段(广域网)。 (7)下面选项中正确描述了冲突域的是___。 a)传送了冲突的数据包的网络区域 b)以网桥、路由器、交换机为边界的网络区域 c)安装了https://www.qinxue365.com/fangfa/485548.html
7.智慧树知到章节测试答案汇总智慧树知到创新创业基础心理降答案汇总近日北京大学智慧树共享课程还是很受大家喜欢的,不过在学习之后需要完成见面课和章节测试的,很多小伙伴不清楚答案,今天小编就给大家整理了一些,有关爱生命急救与自救技能,走进故宫,互联网与营销创新章节等测试答案的汇总,一起来看看。 智慧树知到互联网与营销创新章节测试答案 https://www.qqtn.com/article/article_319268_1.html
8.2020山东威海教师招聘:试题试卷(一)四、单项选择题(在下列每小题四个选项中只有一个是符合题意的,将其选出并把它的标号写在题后的括号内。错选、多选或未选均不得分。本大题共65小题,每小题0.6分,共39分) 46.一个社会的教育发展过程与其政治经济发展进程之间的关系是() A.教育超前于政治经济发展 B.教育滞后于政治经济发展 C.教育常常与https://www.zhaojiao.net/download/show-6226.html
9.全球互联网50年:发展阶段与演进逻辑互联网既是冷战的产物,更是全球化的产物。本文以年代为划分标准,从技术创新、商业创新和制度创新三个维度入手,系统梳理了互联网50年发展历程各阶段的关键事件和节点,总结了各个阶段演进的基本规律与内在逻辑,说明了一部互联网史就是一部人类扩展互联的文明史。在技术、商业、政府和社会的互动与博弈中,互联网发展之路https://www.secrss.com/articles/11938
10.互联网发展的4个阶段互联网发展大致可以分为四个阶段: 第一阶段:PC互联网时代的开始,90年代初以新浪、搜狐、网易、百度为代表的门户网站为代表,解决了人与信息交互的形式,人们从看报纸、杂志的习惯转变为看门户网站新闻,纸媒开始衰落。 第二阶段:1998年-2010年,以淘宝、腾讯为代表的互联网企业,解决了人与商品、人与人之间社交的方式https://www.jianshu.com/p/b646357bbf10
11.整个移动互联网发展历史可以归纳为四个阶段:萌芽阶段培育成长整个移动互联网发展历史可以归纳为四个阶段:萌芽阶段、培育成长阶段、高速发展阶段和全面发展阶段。A.正确B.错误的答案是什么.用刷刷题APP,拍照搜索答疑.刷刷题(shuashuati.com)是专业的大学职业搜题找答案,刷题练习的工具.一键将文档转化为在线题库手机刷题,以提高学习效率https://www.shuashuati.com/ti/3093275a7d734b2da26254f87c2dd5fe.html?fm=bd33d6869684d57e70a27e6dd87da0fdd7
12.福建省中等职业学校学业水平测试(计算机网络2019版)了解计算机网络的发展、功能、分类; 计算机网络发展的四个阶段 面向终端的计算机网络 计算机-计算机(分组交换网) 标椎化计算机网络体系结构 高速计算机网络 计算机网络的功能 方便的信息检索 2.现代化的通信方式 3.办公自动化 4.电子商务与电子政务 5.企业的信息化 6.远程教育与E-learning 7.丰富的娱乐和消遣 8.https://blog.csdn.net/lr1462187972/article/details/119802212
13.推荐创业计划模板九篇时光在流逝,从不停歇,很快就要开展新的工作了,写一份计划,为接下来的工作做准备吧!相信大家又在为写计划犯愁了?下面是小编收集整理的创业计划10篇,希望能够帮助到大家。 创业计划 篇1 前言 网上购物是互联网作为网民实用性工具的重要体现,随着中国整体网络购物环境的改善、网上支付和网上银行的快速发展,网络购物市场https://www.yjbys.com/chuangye/ziliao/chuangyejihuashu/633380.html
14.简述计算机网络演变四个阶段1、1. 简述计算机网络的演变的四个阶段。答:追溯计算机网络的发展历史,它的演变可概括地分成四个阶段:(1)网络雏形阶段。从20世纪50年代中期开始,以单个计算机为中心的远程联机系统,构成面向终端的计算机网络,称为第一代计算机网络。 (2)网络初级阶段。从20世纪60年代中期开始进行主机互联,多个独立的主计算机通过线路https://m.renrendoc.com/paper/176002062.html
15.最大的决心才能产生最高的智慧。详解2022年经济新问题某些地方为追求“高端大气上档次”,发展先进的新一代信息技术,但是没有注意“低调奢华有内涵”,关键是看这个技术好用不好用。 信息化有四化:数字化、网络化、自动化、智慧化。用四个词概括即为:掌握情况,敏捷反应、转型升级、提质增效。 如何判断这样的新一代信息技术可以使用呢?各地各行各业都可以用“二三一”https://36kr.com/p/1698551571038469
16.中国卫星通信产业发展白皮书发布,民营航天企业迅速崛起科学湃四是现阶段卫星互联网建设及运营模式更加合理。卫星互联网发展了近30年,主要经历了三个阶段(如图1所示)。从2014年开始,卫星互联网进入到第三阶段,该阶段以星链(Starlink)、One Web等计划为代表,定位于与地面通信形成互补融合的无缝通信网络。现阶段卫星互联网与地面通信系统二者之间更多的是互补与合作,发展空间巨大。https://www.thepaper.cn/newsDetail_forward_3894197
17.《运用现代教育技术设计有效课堂活动的实践研究》课题结题报告据统计显示,1999年美国已将近有95%的中小学校可以上网,在中小学平均每9名中小学生就拥有了一台可以上网的电脑。到2000年为止,美国已经有近80%的教室都连上了国际的互联网。 黄德群在《美国中小学教育技术应用研究》中,将美国中小学教育技术的应用模式归纳为四个方面:基于传统的教学媒体(如幻灯机、投影仪、视听https://wjez.wjjy.cn/newsInfo.aspx?pkId=494