从《全国职业院校大数据中心建设指南》看大数据中心平台建设南京迪塔维数据技术有限公司

10月27-28日,由高校毕业生就业协会主办,江南大学、江苏信息职业技术学院等承办的高校毕业生就业协会教育数字化服务工作委员会暨高校教育数字化转型与人才培养论坛在江苏省无锡市圆满召开,迪塔维作为支持单位受邀出席。席间,迪小数发现很多老师对我们的“职业院校大数据中心”建设方案非常感兴趣,所以本期话题,我们就本着探究与学习的态度,与大家一起聊聊《全国职业院校大数据中心建设指南》(以下简称“指南”)中的大数据中心怎么建。

说起“指南”,今年6月份,教育部教育管理信息中心印发《职业教育信息化标杆学校建设指南》、《职业教育信息化标杆学校监测指标》、《职业院校大数据中心建设指南》系列指导文件,目标到2025年,建设300所左右数字资源丰富、功能应用强大、赋能效果良好、示范引领突出的全国性标杆校,带动建设1000所左右区域性标杆校,引导职业院校进一步丰富拓展师生发展、教育教学、实习实训、管理服务等方面的应用场景,以数字化赋能职业院校教学模式深度变革,促进数字技术与教育教学深度融合,带动职业教育数字化水平整体提升,服务数字时代高素质技术技能人才培养。

职业院校数字校园建设试点是标杆校建设的重要基础。数字校园试点工作中,建设校本大数据中心、对接院校中台、参与国家智慧职教平台资源与应用建设等任务,既是参与标杆校建设的基础条件,也是标杆校建设任务的重要组成。“指南”是职业院校校本大数据中心建设、应用、运维工作的规范和指导。简而言之,建设标杆校,需要根据“指南”要求,不断完善校本数据中心。

其实看到“指南”,我们也是惊喜且兴奋的,因为学校能够知道大数据中心怎么建,我们也能看到自己的产品与“国家队”的差距。欣慰的是,逐条对标后,我们发现产品与“指南”要求高度吻合,而“指南”中对专有名词的释义更加权威、合理,这也为我们后续产品的优化提供了明确的方向。

一、“Whattodo?”/

学校大数据中心建设主要包括顶层设计、数据标准与数据架构设计、数据质量与安全管理、数据应用、大数据平台建设、全国职业教育智慧大脑院校中台对接等内容。我们的理解,顶层设计是策略,标准与架构设计是核心,质量与安全是保障,应用是路径,大数据平台是工具,智慧大脑对接是前提。

二、“Howtodo?”/

“指南”中“大数据中心平台技术框架”章节详细描述了服务大数据中心建设所需的技术结构和工具(如图所示),采用分层结构,包括数据源层、数据汇聚层、数据存储与管理层、数据分析与开发层、数据应用层、以及数据治理监控层。所谓“工欲善其事,必先利其器”,数据为基,数链为线,治用并举,方为“智”治。

▲大数据中心平台工具框架图

▲迪塔维大数据中心总体架构图

我们一层一层来看:

数据源

数据汇聚

“数据汇聚作为底层基础支撑性服务,是大数据环境的基础组成部分。通过Datax、Kettle等主流ETL工具对学校的多源异构数据汇聚需考虑不同类型(结构化、半结构化、非结构化)、不同集成策略(定期采集、实时采集)的数据汇聚方案,并支持数据的预处理,为大数据环境提供原始数据支撑。”

Datax、Kettle等工具虽主流,但操作繁琐,实时集成需要外挂其他引擎,依然属于传统的ETL模式,我们的破局之法是:通过流批一体数据集成引擎,实现各类异构数据源(包括非结构化数据)的统一汇聚,通过实时湖仓完成数据分层建设,实现标准化数据的清洗转换等处理过程。只要源端满足条件,流处理引擎就可以适配各类主流关系型数据库的实时同步,将CDC(变化数据捕捉)的制约条件降至最低,支持逻辑主键、物化视图、BlOB大字段的实时同步,并提供集成策略推荐。通过可视化的配置界面,将繁琐的操作黑盒化,降低数据汇聚作业的开发难度。

另外,批处理又保留了ETL工具强大的批量计算及数据清洗转换能力,基于统一调度实现各类集成任务的在线编排和调度,与流处理自由切换,即“流批一体”,为每个高校的数据汇聚场景适配最优的数据同步方案。

数据存储与管理

“数据存储与管理层是大数据处理环境的核心,它存储由数据采集层采集回来的各类数据和数据治理后的各个层次的数据,并为上层应用提供数据处理的能力。”显然,这是大数据中心的核心所在。大数据底座支撑大数据中心数据存储、汇聚、交换、传输、计算的全过程,其性能和架构将直接影响大数据环境的运行。

迪塔维大数据底座搭载自研流批一体集成引擎、分布式湖仓、流式数据传输Kafka集群等内置组件,对时效性、稳定性、扩展性和性能进行全面提升,分布式、高容错、高稳定,数据存储体系足够健壮,同时能为用户提供完整的大数据Hadoop生态等技术组件,便于扩展数据存储、计算、调度、共享等延伸需求。

▲数据存储与管理逻辑架构图

从数据存储架构划分上来说,我们把数据实体分为数据源层、贴源层数据湖(ODS)、数据仓库标准层(DWD)和数据仓库应用层(ADS)四大部分,数据源通过实时入湖操作1:1复制进入贴源层,经对标、清洗、脱敏后进入数据仓库标准层,围绕学校基础管理范畴划分主题域,应用层则以标准层为基础,构建命名规范、口径一致的数据模型及指标,为上层数据应用输出主题、指标模型。本存储架构与“指南”在“数据架构设计”章节提出的数据贴源层(ODS)、数据仓库层(DW)和数据应用层(ADS)三层分布完全吻合。

数据分析与开发

“数据分析与开发层提供对数据的探查与自主分析和图形化的数据开发。”我们通过可视化拖拽方式实现数据实时集成、实时计算、脚本开发(SQL、SHELL、PYTHON)、算法开发,为深入挖掘数据要素潜力,我们还提供了一个支持R语言和Python语言编写的Web应用,可以在线创建、编译、运行、共享代码,实现深层次数据清洗转换、数值模拟、统计建模、挖掘算法功能,帮助学校降低数据开发门槛,提高开发效率。支持基础算法原子封装,通过可视化建模过程,实现拖拽式数据智能分析与挖掘工作,发掘数据内在关联关系,深挖数据资产潜在价值,支持预警类、画像类应用精准化助力人才培养、主动关怀。

▲流计算可视化拖拽配置

数据应用

数据应用层是面向最终用户划分的,分为数据开放共享和数据可视化两部分。我们在数据开放模块提供了全场景、高安全的数据开放与共享接口开发注册及监控能力,围绕数据资产服务的“开发-发布-监控”流程,使数据资源共享更加体系化、流程化。另外,除要求的API接口形式之外,我们还提供在线查询、文件下载、视图开放共四类开放形式。

数据可视化作为最直观可见的数据应用场景,一直是各路厂商“卷技术、秀实力”的主战场。我们不敢保证技术能力是最顶尖的,但是对于高校数据可视化场景下常用的组件、指标非常了解,多年实施经验也积累了丰富的可视化模板,可按需构建领导驾驶舱、主题看板、移动端数据报告、联屏IOC等可视化场景。结合流计算能力,大屏还可实时呈现数据同步、数据统计效果。

THE END
1.饿了么大数据平台建设饿了么大数据平台建设 【导语】随着接入的需求方越来越多样化,对大数据的数据使用、数据存储与计算的需求也越来越多样化,同时业务飞速发展,集群的规模也急速扩大。如何在这样的场景下通过大数据平台,稳定支撑住业务的发展是一个不小的挑战。本文分享主要平台工具链,技术、选型及架构设计上的一点经验。https://blog.csdn.net/dev_csdn/article/details/78625404
2.大数据平台架构:数据平台建设的几种方案随着大数据在越来越多的企业当中落地,企业要开展大数据相关的业务,那么首先要搭建起自身的数据平台。而企业搭建大数据平台,往往需要结合成本、业务、人员等各方面的因素,来规划数据平台建设方案。今天我们就来聊聊数据平台建设的几种方案。 随着大数据在越来越多的企业当中落地,企业要开展大数据相关的业务,那么首先要搭建起https://www.51cto.com/article/635510.html
3.华为大数据平台——助力智慧城市建设华为大数据平台——助力智慧城市建设 活动名称 2020 类型 专题演讲 行业 制造 产品与解决方案 企业网络https://www.huawei.com/cn/events/huaweiconnect/sessions-on-demand/2020/200920110000153
4.关于智慧大数据中心平台建设思路CTO老王关于智慧大数据中心平台建设思路 一,设计目标 以ES为核心建立数据集中处理平台,支持从各个应收系统采集数据,进行清洗与转换,之后可以进行聚合操作,对外提供API查询; 全平台支持数据集自建,支持转换,查询规则自由配置。 二,设计需求 1.系统支持自由建立数据集,每个数据集对应一个ES的一个索引的别名。(不要直接用索引名https://www.cnblogs.com/Javame/p/9540182.html
5.广西建设园区精准招商大数据平台存在的问题及对策建议首先,政府可采用以奖补政策、购买服务等方式支持市场化大数据平台建设,鼓励市场化招商和大数据招商。其次,逐步形成政府相关机构招大商,专业平台可运用互联网、大数据等工具全面配合大招商的格局。 四、 结语 广西建设园区精准招商大数据平台是解决招商资源与项目匹配效应最大化的有效途径,本文仅提出建设招商基础大数据库和O2http://www.reportway.org/article/25881.html
6.建设大数据平台服务企业范围扩大建设大数据平台 服务企业范围扩大 家中老人往往存在突发的健康问题,现在只需在家中安装健康监测系统,将实时数据连接网络,就可实现远程实时监控家人身体健康状况并提前预警。不止如此,这一服务链还能实现监测数据分析、专家健康评估建议等远程服务,这就是东莞云智慧智能科技有限公司对医疗大数据的创业运作。 https://cda.pinggu.org/view/14811.html
7.政府相继建设新能源汽车数据监测平台,大数据能为新能源汽车保驾不过新能源汽车大数据平台建设本身也是新生事物,还面临不少挑战。 中国工程院院士、北京理工大学副校长孙逢春在新能源汽车国家大数据联盟成立之初曾坦言,新能源汽车涉及的职能部门众多,包括工信、科技、环保、发改、交通、公安、国防等,制度和规划层面缺少总体统筹和制度设计;地方政府认识差异较大,数据平台存在碎片化风险。新http://www.cnautonews.com/chengyongcar/2022/11/04/detail_20221104353594.html
8.关于建设“遵义农业云”大数据平台,推动农业现代化发展的建议近年来,遵义市农业一直处于全省第一位置,有着“黔北粮仓”的美誉。遵义市作为典型的快速发展中的西部地区城市,在深入推进农业产业结构调整过程中,用大数据改造传统农业、装备农业是破解农业发展难题的迫切需要,也是实现农业现代化发展的重要https://www.zunyi.gov.cn/hdjl/jytabl/blfw/sjzdta/2020/202009/t20200921_68724732.html
9.大数据开发工具TDS助力数据运营平台建设腾讯云开发者社区数据运营套件,助力数据运营平台建设 TDS 2.3 新版本的数据运营套件,加强了大数据分析与服务能力,新融合了三个大数据分析与服务相关组件,提供数据标签体系构建和自助取数,直接对接数字化转型应用的API开发和管理,并能将上述套件产生的数据产品在统一的共享门户中进行企业内部共享交换,将企业各类型数据资产以分析、服务和共https://cloud.tencent.com/developer/article/2119841
10.电力企业工业大数据云平台建设电力企业工业大数据云平台建设 一、工业大数据云平台的意义 随着现代化信息技术和智能电网建设的持续推进和发展,各类电网实时、准实时数据从几百TB快速增加到几千TB,数据增长速度呈现爆发式增长势头,电力行业步入了大数据时代。电力大数据具有如下特征:数据量大、变化迅速、价值高等,传统技术数据处理能力已经难以满足电力大数http://sirenpower.com/page122?product_id=20
11.大数据时代下的党建创新大数据对人们的显性影响越来越明显,重视大数据建设,规范大数据环境是我们党当前面临的一大难题。充分利用大数据技术平台开展党组织建设,加强大数据服务职能也是建设学习型、服务型、创新型党组织的客观要求。在大数据浪潮的洗礼下,党要清醒认识到信息大数据技术的重要性,坚持与时俱进,把党的建设与信息技术的运用结合起来,提http://bsjgdj.baoshan.sh.cn/djyj/201904/t20190410_558330.html
12.智慧建筑施工:建筑施工大数据可视化平台建设方案—上海艾艺智慧建筑施工:建筑施工大数据可视化平台建设方案 建筑行业是一个传统的安全生产事故多发、易发行业。尤其随着城市化进程的不断加快,建设工程规模不断扩大。为了进一步提高施工质量和施工效率,确保人员和设备安全,数字化管理是对在建工地实施24小时的远程监控,对工地施工作业无死角的监管,从源头上杜绝违规行为。https://www.adinnet.cn/bloginfo/2021_12/blog_5865.html