DataMan美团旅行数据质量监管平台实践

数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。MichaelHammer(《ReengineeringtheCorporation》一书的作者)曾说过,看起来不起眼的数据质量问题,实际上是拆散业务流程的重要标志。数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套处理准则,而体量大、速度快和多样性的特点,决定了大数据质量所需的处理,有别于传统信息治理计划的质量管理方式。

本文将基于美团点评大数据平台,通过对数据流转过程中各阶段数据质量检测结果的采集分析、规则引擎、评估反馈和再监测的闭环管理过程出发,从面临挑战、建设思路、技术方案、呈现效果及总结等方面,介绍美团平台酒旅事业群(以下简称美旅)数据质量监管平台DataMan的搭建思路和建设实践。

美旅数据中心日均处理的离线和实时作业高达数万量级,如何更加合理、高效的监控每类作业的运行状态,并将原本分散、孤岛式的监控日志信息通过规则引擎集中共享、关联、处理;洞察关键信息,形成事前预判、事中监控、事后跟踪的质量管理闭环流程;沉淀故障问题,搭建解决方案的知识库体系。在数据质量监管平台的规划建设中,面临如下挑战:

DataMan质量监管平台研发正基于此,以下为具体建设方案。

构建美旅大数据质量监控平台,从可实践运用的视角出发,整合平台资源、技术流程核心要点,重点着力平台支持、技术控制、流程制度、知识体系形成等方向建设,确保质量监控平台敏捷推进落地的可行性。数据质量监控平台整体框架如图1所示:

以数据质量检核管理PDCA方法论,基于美团大数据平台,对数据质量需求和问题进行全质量生命周期的管理,包括质量问题的定义、检核监控、发现分析、跟踪反馈及知识库沉淀。数据质量PDCA流程图如图2所示:

关键流程:

质量监管平台建设实践应用及价值体现,离不开管理流程、技术实现和组织人员的紧密结合,主要包含如下8大流程步骤:

大数据平台下的质量检核标准更需考虑到大数据的快变化、多维度、定制化及资源量大等特性,如数仓及应用BI系统的质量故障等级分类、数据模型热度标准定义、作业运行耗时标准分类等和数仓模型逻辑分层及主题划分组合如下图3所示。

各项均对应具体的实施策略。整体数据质量的检核对象包括离线数仓和实时数据。

数据质量功能模块设计的主要功能如上图4所示,包括:监控对象管理、检核指标管理、数据质量过程监控、问题跟踪管理、推荐优化管理、知识库管理及系统管理等。其中过程监控包括离线数据监控、实时数据监控;问题跟踪处理由问题发现(支持自动检核、人工录入)、问题提报、任务推送、故障定级、故障处理、知识库沉淀等形成闭环流程。

流程化管理是推进数据问题从发现、跟踪、解决到总结提炼的合理有效工具。质量管理流程包括:数据质量问题提报、数据质量问题分析、故障跟踪、解决验证、数据质量评估分析等主要环节步骤;从干系人员的角度分析包括数据质量管理人员、数据质量检查人员、数据平台开发人员、业务及BI商分人员等,从流程步骤到管理人员形成职责和角色的矩阵图。如图5所示:

质量流程管理:

DataMan系统建设总体方案基于美团的大数据技术平台。自底向上包括:检测数据采集、质量集市处理层;质量规则引擎模型存储层;系统功能层及系统应用展示层等。整个数据质量检核点基于技术性、业务性检测,形成完整的数据质量报告与问题跟踪机制,创建质量知识库,确保数据质量的完整性(Completeness)、正确性(Correctness)、当前性(Currency)、一致性(Consistency)。

总体架构图如图6所示:

DataMan应用系统其前端框架(如上图7)基于Bootstrap开发,模板引擎为FreeMarker,Tomcat(开发环境)作为默认Web容器,通过MVC的方式实现与应用服务层对接。Bootstrap的优势基于jQuery,丰富的CSS、JS组件,兼容多种浏览器,界面风格统一等;FreeMarker为基于模板用来生成输出文本的引擎。后台基于开源框架Spring4,SpringBoot,Hibernate搭建,其集成了Druid,Apache系列和Zebra等数据库访问中间件等,为系统的功能开发带来更多选择和便利。

系统数据库连接采用中间件Zebra,这是美团点评DBA团队推荐的官方数据源组件,基于JDBC、API协议上开发出的高可用、高性能的数据库访问层解决方案;提供如动态配置、监控、读写分离、分库分表等功能。Zebra整体架构如图8所示:

Zebra客户端会据路由配置直连到MySQL数据库进行读写分离和负载均衡。RDS是一站式的数据库管理平台,提供Zebra的路由配置信息的维护;MHA组件和从库监控服务分别负责主库和从库的高可用。Zebra支持丰富的底层连接池;统一源数据配置管理;读写分离和分库分表;数据库的高可用。

整个质量监管平台数据流向为数据质量元数据信息采集于美团平台,包括数据仓库元数据信息、质量检测元数据、调度平台日志信息、监控日志及实时元数据信息等,加工形成独立数据质量的集市模型,以此支撑应用层系统的数据需求。应用层系统数据库采用关系型数据库存储的方式,主要包含了规则配置管理信息、数据质量结果库等信息内容。数据流向层级关系图如下:

质量集市层:DM数据质量集市的独立创建是依托基础元数据信息,根据质量监管平台配置的引擎规则ETL加工形成。规则库引擎如数仓应用主题的划分规则、数仓逻辑分层约束、数据库引擎分类、模型使用热度等级、模型存储空间分类、资源增长等级、历史周期分类、作业重要级别、作业运行耗时等级、作业故障分类、及数据质量标准化定义等;在管理方向上,如模型或作业所属的业务条线、组织架构、开发人员等;在时效上分为离线监控数据、实时数据集市等。从多个维度交叉组合分析形成模型类、作业类、监控日志类、实时类等主题的等易理解、简单、快捷的数据质量集市层,强有力的支撑上层应用层功能的数据需求。数据质量集市DM主要模型如图10所示:

应用分析层:应用层系统数据采用关系型数据库(MySQL)存储的方式,主要包含了规则配置管理信息、数据质量分析结果、实时API落地数据、故障问题数据、知识库信息、流程管理及系统管理类等信息内容,直接面对前端界面的展示和管理。

数据质量DataMan监控系统一期建设主要实现的功能包括:个人工作台、信息监控、推荐信息、信息提报、故障管理、配置管理及权限系统管理等。系统效果如图11所示:

系统通过规则引擎的设置和自动调度的执行,从存储资源配置、数据模型优化、作业优化、日志错误超时、预警通知等方面考虑,以制定的质量标准为评估依据,自动检测评估,汇总问题,形成可靠的推荐优化内容,并在达到阈值条件后主动推送消息,触发后续任务开展。

支持自动提报和人工填报两种模式,以闭环工作流方式开展工作,确保问题故障可跟踪、可查询、可定级、可考核、可量化,以责任到人、落地可行的处理模式,严控数据质量,从根本上提高数据质量,提升业务服务水平。

数据质量是数据治理建设的重要一环,与元数据管理、数据标准化及数据服务管理等共同构建了数据治理的体系框架。建设一个完整DataMan质量监管平台,将从监控、标准、流程制度等方面提升信息管理能力,优先解决所面临的数据质量和数据服务问题,其效果体现以下几个方面:

数据质量是数据仓库建设、数据应用建设和决策支持的关键因素,可通过完善组织架构和管理流程,加强部门间衔接和协调,严格按照标准或考核指标执行落地,确保数据质量方能将数据的商业价值最大化,进而提升企业的核心竞争力和保持企业的可持续发展。

THE END
1.干系人参与度评估矩阵监督干系人参与流程图模板干系人参与度评估矩阵是一种工具,用于监督干系人在项目中的参与程度。它可以帮助项目经理确定哪些干系人对项目的成功至关重要,以及他们应该参与项目的哪些方面。通过使用这种矩阵,项目经理可以更好地管理干系人的参与,确保项目按计划进行,并及时解决任何潜在问题。此外,干系人参与度评估矩阵还可以帮助项目经理识别潜在https://www.processon.com/view/64c14baae09987510ba376e4?fromnew=1
2.干系人管理(精选五篇)待干系人识别完成后,还需要对干系人进行必要的分析,才可以辨认出哪些是关键干系人,哪些是一般干系人,从而制定不同的干系人管理策略。用做干系人分析的常用工具有权力/利益矩阵、RACI模型和支持度分析模型等。 2.1 权力/利益矩阵 权力/利益矩阵(见图2)通过对干系人权力和利益程度的分析,将众多干系人分成四类https://www.360wenmi.com/f/cnkeypkw0eqt.html
3.PMBOK各章知识点汇总1、 组织结构类型:职能型、项目型、矩阵型(强矩阵、平衡矩阵、弱矩阵); 2、 事业环境因素和组织过程资产的区别; 3、 项目干系人的含义; 4、 三种生命周期:项目生命周期、项目管理生命周期、产品生命周期的联系和区别; 5、 生命周期特征:干系人影响力的变化、风险不确定性的变化、风险产生影响的变化、发生 https://www.kekeguo.net/a/955.html
4.信息系统项目管理师干系人管理思维导图模板思维导图 干系人参与度评估矩阵 会议 输出 干系人参与计划 规划过程组 管理干系人参与 输入 项目管理计划 项目文件 事业环境因素 组织过程资产 工具与技术 沟通技能 人际关系与团队技能 基本规则 专家判断 会议 输出 变更请求 项目管理计划更新 项目文件更新 执行过程组 监督干系人参与 输入 项目管理计划 项目文件https://www.zhixi.com/tpl/e050a5613b2e760a4a3a3e39ff2c57e0?category_id=-1
5.如何做好项目干系人(相关方)管理?易趋还设有供应商/采购合同管理模块,客户/销售合同模块,外包人员管理模块,能够实现将企业外部的资源如供应商、客户、外包人员进行管理,将相关干系人纳入项目规范化管理流程之中,实现对供应商的严格把关、对销售状态的跟踪和对外包人员的高效管理。 图5易趋平台概览视图 https://blog.itpub.net/31546492/viewspace-2871037/
6.项目管理中干系人管理权利/影响方格和参与评估矩阵【权力/影响方格】:权力/利益矩阵是根据干系人权力的大小,以及利益对其分类。这个矩阵指明了项目需要建立的与各干系人之间的关系的种类。 首先关注处于B区的干系人,他们对项目有很高的权力,也很关注项目的结果,项目经理应该“重点管理,及时报告”,应采取有力的行动让B区干系人满意。项目的客户和项目经理的主管领导https://blog.51cto.com/u_3176433/5784590
7.识别项目干系人工具干系人权力/利益方格(图文)【识别项目干系人工具】干系人权力/利益方格 权力/利益矩阵是根据干系人权力的大小,以及利益对其分类。这个矩阵指明了项目需要建立的与各干系人之间的关系的种类。 首先关注处于B区的干系人,他们对项目有很高的权力,也很关注项目的结果,项目经理应该“重点管理,及时报告”,应采取有力的行动让B区干系人满意。项目的http://www.sdedu.cc/rk/xtjc/tk/mryl/2017-11-10/13931.html
8.高虎:找对人说对话看准时做对事认识有效的沟通是需要管理的 树立干系人管理的理念,将干系人纳入工作的管理过程中 学习干系人识别的三个维度及其分类的四个维度 掌握干系人分析与管理的工具,如权力利益矩阵、干系人沟通管理表等 掌握向上、平级、向下以及与客户沟通的基本原则 分享跨部门沟通与协作的七个要领及处理冲突的六个原则 https://www.jiangshitai.com/course/6929.html
9.铁道游击队导图社区 信息系统项目管理师备考15 举报 发布时间:2023-01-06 新疆 信息系统项目管理师备考高项考试思路图,包括项目管理基础知识、立项管理、十大过程领域、知识产权与标准规范、安全管理、流程管理、信息化和信息系统、信息文档管理与配置管理等内容。 编辑https://mm.edrawsoft.cn/template/1500637
10.第17章项目干系人管理干系人参与度评估矩阵dc干系人参与度评估矩阵(C:当前参与水平,D:期望参与水平) 17.4.3输出:干系人参与计划 17.5管理干系人参与 17.5.3输出 17.6监督干系人参与 17.6.3输出 1、工作绩效信息 项目干系人管理包括识别能够影响项目或会受项目影响的人员、团体或组织,分析干系人对项目的期望和影响,制定管理策略有效调动干系人参与项目https://blog.csdn.net/Hardworking666/article/details/135750199
11.课程第十二章项目管理 本章的内容主要包括:项目的概念与特点、项目管理十大知识领域及其工作内容、创建工作分解结构的工具和技术、前导图法和箭线图法、挣值分析法、项目干系人的识别、规划、管理和控制。 ●12.1项目与项目管理 本节的知识点主要包括:项目的内涵、项目管理与流程管理的区别、项目生命周期的划分、项目管理https://higher.smartedu.cn/course/6260b189f29a9e60d0f2606b
12.干系人分类模型1、干系人分类模型第1种分析方法是权力/利益方格,如下图1所示。令其潦意A垂点管理监野i花最少的精为)D蕴时告知C图1干系人权力/利益方格权力/利益矩阵是根据干系人权力的大小、以及利 益对其分类。这个矩阵指明了项目需要建立的与各 干系人之间的关系的种类。首先关注处于B区的干系人,他们对项目有很高 的https://www.renrendoc.com/paper/215725885.html
13.1.19项目干系人管理影响:作用方格图.jpg 四、规划干系人管理管理 1)、规划干系人管理过程的输入、工具和输出(☆) 2)、分析技术 可以使用”干系人参与评估矩阵“这个工具记录干系人的当前参与程度。 3)、干系人管理计划的内容 关键干系人的所需参与程度和当前参与程度; https://www.jianshu.com/p/90ba5108036d
14.如何对项目干系人进行识别与管理–PingCode识别项目干系人是项目管理的首步。这一步骤要求项目经理或团队成员采用系统的方法,确定所有可能对项目产生影响或被项目影响的个体和组织。 广泛搜集信息:通过会议记录、项目文件、组织结构图、历史数据等广泛搜集信息,确保尽可能全面地识别干系人。 利用工具和技术:使用干系人分析矩阵、利益相关图等工具,帮助识别和分类https://docs.pingcode.com/ask/543064.html
15.全国软考信息系统项目管理师9大项目管理领域口诀(清华人资管理工具口诀:机构职位模网络;事先谈判采购虚;理培团队基中奖;绩效观察问冲突。沟通管理工具口诀:沟技技术|收检发;表工收编审|沟日。风险管理工具口诀:核对管理数据库;德尔头思检查图;概率矩阵分类评;蒙卡货币计算审;规移轻接拓分提;评审效金状偏趋。计划工作标实际,完检调变改反接。项目质量计划测试项目http://m.zhuangpeitu.com/article/253435692.html
16.项目管理中级第12章项目沟通和干系人管理*5、某项目经理在编制干系人管理计划,绘制的如下表格是( )。 A.干系人职责分配矩阵 B.干系人优先矩阵 C.干系人参与评估矩阵 D.干系人亲和图 *6、 在进行项目干系人分析时,经常用到权力/利益分析法,对待属于第A区域的项目干系人,应采取的策略是( )。 https://www.wjx.cn/jq/112779418.aspx
17.学信息系统项目管理师第4版系列17干系人管理1. 项目经理和团队管理干系人的能力决定着项目的成败 2. 干系人满意度应作为项目目标加以识别和管理 3. 发展趋势和新兴实践 3.1. 识别所有干系人,而非在限定范围内 3.2. 确保所有团队成员都涉及引导干系人参与的活 3.3. 定期审查干系人群体,可与单个项目风险的审查工作并行开展 https://zhuanlan.zhihu.com/p/659358158