详解如何避免大数据PaaS平台建设中的这些“坑”?大数据技术

运营商在进行全网BI系统规划时,会频繁遇到一个问题,各个省公司、各个部门都希望自己搭建大数据平台,到处都缺少人才,甚至都在争抢集成商的支持。随着大数据技术的蓬勃发展,这个问题变得非常严重,关键在于没有规模效益。公司能培养一百名大数据专家已经非常不容易了,但是如果分散在多个省,又分散在各个IT部门(如业务支撑、网管支撑和管理信息支撑系统),那么每个部门只能分到一个人。

所以很自然的想到“能否实现平台和应用分离”,可否统一搭建一个大数据平台,然后各个单位在平台上做分析模式、搭建自己的应用这种集中化的规划,可能是业界第一次提出大数据能力开放平台(PaaS)的概念。

大数据PaaS最重要的就是数据资源的管理,把它与大数据能力一样看待,通通抽象成服务,即一切皆服务,从采集、存储、计算、展现再到管理,下面一张图道尽了一切,这里的DaaS是否可以算作PaaS呢?仁者见仁智者见智了,但如果从目的出发,笔者觉得可以算。

成就大数据PaaS的典范是阿里吧,你看他们的中台,覆盖了PaaS的方方面面,几乎承载了所有数据平台人员的梦想,以下来自《阿里巴巴大数据实践之大数据之路》一书的描述。

数据采集层:

Aplus.JS+UserTrack双剑合璧实现了Web和APP端的采集,TT实现了消息的传输,DataX实现了数据库的同步。

数据计算层:

数据整合和开发管理:

主要包括OneData和数据开发平台,OneData就是数据仓库建模,数据开发平台就是提供各种开发测试工具,其中的D2(在云端)管开发及调度,SQLSCAN管SQL代码质量,DQC管数据质量,在彼岸管测试,比如数据交换后的表、字段和分布一致性比对等等。

数据开放层:

使应用对底层数据存储透明,将海量数据方便高效地对外开放,阿里叫OneService,主要提供数据查询和实时数据推送服务。

当然,其实PaaS还包括了资源申请,数据赋权等功能,广义来讲就是以上的所有。

理解了大数据PaaS的价值,大家一定对PaaS非常神往,那么,对于一般企业如何打造这类企业级的PaaS平台呢?

第一,自研,但大多时候是找死,当然简单的搞个小工具也就无所谓PaaS了,笔者强调的是企业级,不是部门集市。

第二,全套外包,比如入驻阿里云,享受其提供的大数据PaaS服务,但将失去灵活性,数据安全隐患也成为很多企业不能承受之重。

第三,采购不同的PaaS组件,搭建符合企业自身特点的定制化大数据PaaS,这成为当前很多大型企业的选择。

笔者重点谈的是第三条道路,今天就从管理的视角来谈谈这种模式的一些挑战,很多问题的根源其实不是技术问题,而是建设模式问题,你一旦选择了模式三,就得有足够的思想准备。

1、很难有合作伙伴能够提供全套大数据PaaS组件,这意味着巨大的集成成本

大数据PaaS也面临同样困境,其涉及的组件太多了,几乎没有任何合作伙伴能够全套提供,比如数据计算用的是A产品,数据采集用的是B产品,数据开发用的是C产品,数据可视化用的是D产品,每一个产品单独来看都挺不错,但一旦凑一起要形成合力就充满挑战,别说1+1>2,能等于2已经挺不错了,企业在获得灵活性的同时,后续的运营成本很大,这里举二个典型的挑战:

(1)大数据统一的数据管理需要三方产品能按标准吐出元数据,由于各个产品开放程度不同,因此如果你希望能给予运维人员一致的使用体验,能做端到端的影响或溯源分析,估计就很难了,协调的成本太高。

(2)建设大数据PaaS并不是一棍子买卖,后续各个组件都涉及到版本升级,这个时候往往牵一发而动全身,A产品要升级,B产品能否配合测试,C产品能否同步改造,全都是协调工作,而且产生了木桶效应,比如由于XX原因SPARK的版本长期停留在1.5版本,导致很多新功能不能用。

虽然该模式有很大的集成难度,但考虑到能集百家之长,因此成为了很多企业的首选,从大数据PaaS生态的角度看这是好事,但不建议合作伙伴搞什么全套大数据PaaS解决方案,这几乎是不现实的,规划与PPT可以写得很好,但市场会给出答案。

大家说要向BAT看齐啊,它有的我也要有,但要知道阿里是有个阿里云托底的,PaaS组件也是基于阿里云生成,这样PaaS产品的实施难度会直线下降,因此,阿里提OneService是相对容易的。

而大多合作伙伴的产品面对的是开放的生态,你底层要对接的是各种MPP,Hadoop,流处理组件等等,而且要跟着外面的生态与时俱进,因此开始的时候产品其实做不了那么精细,做透一个就相当不易。

比如阿里仅一个开发管理平台就搞出了这么多辅助功能,什么DQC,SQLSCAN等等,我们到现在为止还没实现呢,为什么?因为要做的事情太多了。

2、很难有合作伙伴能够提供技术+体验俱佳的大数据PaaS,而客户这个“白老鼠”间接铸就了他们的成功

为什么合作伙伴一开始很难提供技术+体验俱佳的大数据PaaS?笔者认为根子在于以下两点:

(1)合作伙伴纵然有强大的技术能力,但如果没有足够的数据,他们呕心沥血研发的杰作几乎可以肯定是个半残品,BAT在大数据方面的强大是因为他们的产品是基于自己的大数据慢慢孵化出来的,而大多数合作伙伴没有这个机会,他们的PaaS是规划出来的,模拟的海量数据场景跟真实的数据使用场景有很大的区别,他们的产品一开始非常不成熟。

比如A公司数据采集工具在刚交付客户时,竟然没有基本的统计功能,导致运维甚至无法评估到底有多少比例的接口在第一次上线时抽取失败了,得一个个靠人去看,而这个客户的接口有几千个!

比如B公司在某个小省的客户处顺利升级了产品,但换到某个大省,就爆发了大规模的故障,原因就是大省的日志太多了,List不动了,然后各种超时。

比如C公司由于没考虑到某个客户数据库中的字段中竟然会有文本逗号,这导致了异构数据库间交换的失败,极大影响了生产。

比如阿里的SQLSCAN估计是检测SQL代码质量的,这个功能很重要,可以避免SQL笛卡尔积啥的,但D公司的产品就是提供不了这个功能。

你看,合作伙伴纵有天才的程序员,总有想不到的数据问题和使用场景,而BAT依托于大数据的优势让其打造的产品生态具备天然的优势,因此大家得抱团取暖,有数据差技术的,有技术没数据的,来个优势互补。

(2)呆在实验室的那帮家伙几乎不可能有机会接触到客户的一线维护人员的真实诉求,他们偏重开发更多的功能(意味着更多的收入),提供更强的性能(意味着碾压竞争对手),但当我们欣喜的祝贺大数据PaaS平台上线的时候,却发现自己的一线维护人员要多花1小时去配置一个接口,这到底是怎样一种体验?

A公司,B公司,C公司,D公司都非常拼命,现在的产品越来越好,这对整个大数据产业其实是好事,但也得感谢下那些第一个吃螃蟹的客户,他们给予了海量数据的测试机会,抓出的BUG可谓汗牛充栋,让这些公司的产品得以迭代演化。

3、很难有合作伙伴能够兼顾到产品的短期和长期,新时期要在组织架构上进行变革

产品研发的集中化、标准化才能确保合作伙伴用最低的成本获得高的效益,合作伙伴对于大数据PaaS往往有自己的既定演进路径,而客户的需求往往在变,特别是大数据这种正处于从概念向实用的转变中的业务,两者之间的矛盾非常突出。

主要体现在以下三点:

(1)客户提出的需求要进入合作伙伴的研发列表决策流程很长,动辄半年,很多合作伙伴提出要让自己的专家听得见一线的炮声,但也是雷声大雨点小。

(2)B端产品的商务决策流程很长,从客户一线提出需求,到项目经理汇总,再到规划部门,采购部门,信息耗损非常大,再加上合作伙伴的决策流程,到最后,一线的需求往往变了样,一线作为使用人员在整个决策流程中其实是个弱势群体。

(3)合作伙伴规划的大数据PaaS产品功能跟具体的某个客户的需求有出入,客户并不愿意为自己不需要的功能买单,现在功能捆绑销售的问题不少,合作伙伴该如何权衡?哪些该做,哪些不该做。

很多客户受不了,只能另起炉灶,好一点的做法就是搞外挂,要求开放接口,自己搞小应用,不少合作伙伴拒绝开放接口,但这是下策,另一种就是选择其他的替代品,有机会就颠覆你,由于B端产品问题的潜伏期比较长,很多合作伙伴往往浑然不知。

那么,有什么解决办法呢?

笔者近期也在跟大数据PaaS合作伙伴探讨解决方案,有两个建议:

一是必须提升本地PSO的地位,一方面要承担起一线需求对接的职责,并且拥有较强的开发能力,在研发短线支撑不了的时候,进行补位,甚至能承担部分研发的职责,比如率先实现某些功能,另一方面也能传递真实的需求到研发,驱动大数据PaaS产品的成熟,成为感知客户的”晴雨表”和双方关系的”缓冲器”。

二是研发要走大中台的路径,主要做能力沉淀、前后端解耦及开放,为PSO赋能,让其去满足前端应用开发的要求,比如A公司的数据采集平台虽然功能较多,但由于必须前台配置,导致某些轻量级的抽取场景没法用,A又不愿意开放能力,逼得客户只能走外挂。

从这里我们似乎看到了阿里“大中台,小前台”的影子,是的,合作伙伴也可以借鉴这个理念,但不要仅仅局限在技术层面,阿里在实施这个战略的时候,首先调整的是组织架构,如下图:

这是一个很有艺术的组织架构,但显然当前大多公司的研发和PSO不是这种中台和前台的关系,研发只是单纯的满足需求,没有中台,无法开放能力,更无从谈起敏捷响应,PSO更多是个配合角色,缺乏话语权。

布莱夫曼2016年出了本书《海星与蜘蛛》,说得就是去中心化的组织架构,集中的组织必须要放权,让听得见炮声的基层组织进行指挥和战斗,别老想着控制,这种手段越来越不好用了。

THE END
1.什么叫bi平台帆软数字化转型知识库什么叫bi平台 BI平台,亦即商业智能平台,旨在通过数据分析、数据可视化及报告生成帮助企业做出更明智的决策。核心特点包括:数据收集与整合、数据分析与可视化、报告生成与分享。其中,数据分析与可视化是BI平台的关键,因其能够将复杂的数据转化为易于理解的图表和报告,从而帮助决策者迅速识别趋势和异常,实现数据驱动的决策。https://www.fanruan.com/blog/article/222087/
2.什么是BI?企业数字化的规划和落地企业信息化建设 - 派可数据BI可视化分析平台 业务信息化- 企业使用的 ERP、CRM、OA、MES、自建的业务系统等,业务系统的建设都统称为业务信息化。业务信息化的主要作用是管理企业的业务流程,标准化、线上化,以提高生产运营效率、降低企业成本、为BI的建设打下数据基础、是业务管理思路的体现,也是现代的企业管理方式。https://maimai.cn/article/detail?fid=1778763808&efid=IIU4kC9omHSMNDd9brumRg
3.什么是BI?医院需要建设BI?医院经营医管攻略什么是BI?医院需要建设BI? 刚刚上任的李院长,看着案头的三份报表,非常苦恼。 都是“耗占比”,都是“2020年全年” 但是三个科室报上来的数据却“完全不一样” 回想刚刚问过病案室、财务处和医务部。 都说是对的 但是“信谁的”? 哪个数据敢用? http://zl.hxyjw.com/arc_40406
4.一文详解企业数据平台建设思路什么是企业数据平台 企业建设数据平台想要解决什么样的数据问题?让我们先来看看数据是如何发挥它的价值的。 数据在企业中如何应用 一般企业内部的数据会以两种方式来使用: 支持BI分析,即通常我们所说的各种数据报表应用,它也包括数据的上卷下钻分析。 支持自助式的探索式的数据分析,通常包括统计分析和建模分析。 https://news.51cto.com/art/202107/672292.htm
5.2022国央企数字化实践报告——深度解读国央企不同嘲数字化痛点某农信社通过建设云平台提升服务效率、实现信创落地统一数据管理分析通道——浙江电信打造一栈式数据中台与BI 解决方案中国国新建立全领域、全级次、全时期一站式数据中台,实现数据价值应用 中汽协会打造行业级区块链平台,汽车数据共享、监管双落地 某大型能源集团以湖仓一体数据底座强韧数据能力 https://www.shangyexinzhi.com/article/5006827.html
6.企业数字化建设之——BI(项目)系统/OLAP/建设落地步骤全流程参考数据中心建设之——理解基于财务三大报表的BI指标体系搭建-CSDN博客 一 背景说明 1.1 企业为什么要上BI系统 ? BI(Business Intelligence,商务智能)系统可以帮助企业更好地利用数据,提高工作效率和商业洞察力,从而取得更好的商业成果;数据驱动决策,提高效率,发现潜在价值,实时监控。 https://blog.csdn.net/java_zhong1990/article/details/132570345
7.智慧医院BI智能决策大数据分析平台建设方案.ppt医惠大数据BI分析平台特征 简约、安全、移动、智能 所见即所得的多维分析动态灵活展现 系统建设的模型化和后期维护的可持续性 模型准确率计算 图形化建模 模拟预测 在海量数据中进行动态路径分析探索 门诊Cube分区 住院Cube分区 医保Cube分区 病案Cube分区 医惠大数据BI分析平台特征 简约、安全、移动、智能 完整的安全https://max.book118.com/html/2021/0709/6153024235003211.shtm
8.创业团队怎么做数据?(1)——一套适合创业团队的数据平台解决方案换句话说,大家都知道数据分析很重要,也都想做,可都忽视了数据基础设施建设的重要性 不过,如果我说,因为创业团队的灵活,反而能做得更好呢? - 基于免费、开源工具,可以不花钱就有好用、高效的工具,ROI极高 - 对整个团队,是很好的锻炼、升级 以下是基于我在大公司做数据中台、小公司从0搭建数据平台、个人项目试https://www.douban.com/note/729488422
9.数据分析——指标字典该如何搭建和推行?(3)是公司数据化建设的基础、数据平台搭建的基础 像搭建数仓、数据资产管理平台、BI分析平台,甚至是数据中台,都需要用到指标和维度,那就都需要指标字典作为基础。指标字典作为公司最标准、最规范的口径文档,将是这些平台中指标部分的关键性参考。 03 指标字典都包括哪些部分 https://www.niaogebiji.com/article-73149-1.html
10.医疗信息化平台建设和思路《全国医院信息化建设标准与规范(试行)》(以下简称:《标准与规范》)于今年4月颁布,明确了医院信息化建设的基本内容和建设要求。根据指标体系图,笔者认为,信息平台基础是大数据平台建设的基础,大数据治理是大数据平台建设的核心,大数据平台建设是人工智能技术应用http://www.aidemed.com/news/1198-cn.html
11.福州市中医院互联互通四甲标准集成平台系统建设项目可行性研究本项目可研编制主要为福州市中医院互联互通四甲标准集成平台系统建设项目的可研报告编制提供一个明确的目标,说明项目的总体建设框架、具体的工作内容和工作规划、针对福州市中医院确定的用户需求以及在确定用户需求进行具体的方案编制以及通过评审。 (四)可研咨询工作内容 https://fzszyy.cn/show.aspx?Id=8301
12.报表BI项目建设中工具平台该花多少钱?在报表 BI 项目中,使用第三方的工具平台早就非常成熟方便了,不仅能提升开发效率,还能大概率省出一部分费用,所以项目上一般都会先选一个报表 BI 工具平台 这些工具平台有免费的,也有收费的,免费的就是开源的,相当于花钱为 0,收费商用的有很多,但有的很贵,有的很便宜,看起来都差不多的东西,却有着几万几十万http://www.360doc.com/content/24/0513/06/78825344_1123137734.shtml