大数据平台在铁路货运中的应用研究

(中国铁路哈尔滨局集团有限公司信息技术所,哈尔滨150006)

铁路货运是我国交通行业的重要组成部分。随着货运组织改革的不断推进,中国国家铁路集团有限公司已相继推广了货运电子商务、调度、现车及货票等主干货物运输支撑信息管理系统,目前已累积大量数据。据初步统计,国铁集团及各铁路局集团公司存储的数据总量已达到10PB的数据级[2],且各类数据增量很快,所以中国铁路货运正处于大数据时代。

1.1.1货运系统的建设过程中,各管理系统比较独立

随着信息化的不断建设,哈尔滨局集团公司已完成了货运电子商务系统、东北快运系统、货票系统及货运站系统等货运业务系统推广工作。首先,在这些系统陆续推广与使用后,每天会产生大量业务数据,但是各系统之间耦合度不高,大部分数据只在系统内部进行分析,缺少横向综合对比,这直接限制了系统发挥更大的作用,对于数据背后的价值不能进行深入地挖掘。其次,数据共享备份不够,如果各业务系统出现故障,将会产生数据二义问题。最后,特别是数据字典需要多方提供,不能避免数据有冲突,所以需要加强统一管理维护。因此,需要将各信息系统的数据进行集中整合,才能更好地服务于铁路货运业务。

1.1.2数据源录入不够准确

数据是业务分析和指挥决策的基础,如果基础数据不准确将严重影响数据的分析结果,因此数据的准确性对大数据平台的应用效果起到重要作用。目前,由于铁路货运中各个系统的基础数据均是由车站人工录入,在录入数据的过程中,数据标准化程度不高,影响数据质量。同时在录入过程中也存在数据不一致和数据不准确的问题,这会直接导致后续对数据的操作及得出的结论失去意义。

1.1.3数据分析技术能力不足

数据分析是一个清理、转换、进行数据建模的过程,从而得出结论并支持决策。目前数据分析统计仍采用传统的手工统计或数据库技术,而使用数据处理技术进行大数据的应用分析缺少专用技术与工具的支撑,数据的可用性不强、时效性低,对决策不能提供很好的数据支持。

1.1.4铁路货运数据共享模式不成熟

数据共享的目的是为了提高信息的利用率,减少“信息孤岛”效应。在数据采集、整合等方面也会节约一定的成本。但是由于目前各部门之间的合作模式不清晰,有些铁路业务数据是不愿意提供的,从而加大了数据采集的难度。因此,如何达成不同部门之间的合作共赢模式成为了数据融合的先决条件。通过有效的措施促进数据融合,从而形成覆盖更大领域的数据集合,全面深化大数据的应用范围,真正地为各项决策提供数据支持。

1.2.1做好数据质量保障工作

数据的质量决定着大数据平台的效果,做好数据质量的保障工作是发挥大数据平台作用的前提。首先,通过考核制度提高操作人员的技术水平,尽可能保证数据在录入阶段的准确性。避免因为初始数据的错误录入而导致后续操作失效的问题发生。其次,在数据交换过程中需要完善的制度标准,明确交换机制及双方责任,有效地执行数据交换标准。最后,可以通过开发适合公司的数据管理系统,在采集数据后对数据进行有效清洗并做到规范化,为后期数据挖掘和分析提供更高质量的可信数据。

1.2.2建立数据仓库

1.2.3数据安全治理

在数据采集、处理和共享等方面都存在安全威胁,在大数据时代确保敏感数据的安全性尤为重要。铁路货运大数据平台存储与处理不同安全级别的数据,在数据共享的同时会带来更多的安全隐患,所以需要建立一套完善的、覆盖数据整个生命周期的数据安全保障体系。同时可以通过大数据平台安全评估体系,来进一步确保数据安全。

建立铁路货运大数据平台首先要梳理出现有的数据资源,明确大数据平台的应用主题,对于梳理好的数据经过数据治理后加载到大数据平台,通过大数据平台应用层进行分析和综合展示,提供有效信息、支持决策[3]。建立铁路货运大数据平台主要分为建立数据采集层、数据传输层、数据存储层、数据分析层及数据展示层5个层面,如图1所示。

图1铁路货运大数据平台架构

通过网络爬虫技术获取万维网数据,同时为了提高抓取性能,加快抓取速度,货运大数据平台采用Java多线程技术,并行处理多个URL连接,从而实现快速且高效的信息采集;同时采用广度优先策略,以分层的方式进行网页抓取,可以大大降低服务器的内存消耗。

数据传输层包括铁路综合办公网及互联网。内网与外网间采用铁路安全平台进行阻隔,确保互联网数据安全传输到内网进行使用,有效保护铁路内部办公网络的安全。集团公司与各货运站段之间数据传输则采用铁路办公网作为网络载体。

由于铁路货运业务系统中的数据都是格式化数据,均以关系型数据库的方式进行存储,主要数据库产品为Oracle数据库。目前铁路货运业务也存在一些检测类的辅助系统,其数据是以音频或视频等形式存储的,这部分数据量较大,且不适合存储到数据库中,因此这部分数据需要采用分布式文件系统(HDFS)方式进行存储。而对于互联网获取的数据需要通过专业软件产品(如Sqoop等),将数据转化为文件方式进行存储。

由于大数据数据类型分为结构化数据和非结构化数据2种类型,所以数据分析层分为结构化数据分析与非结构化数据分析。

结构化数据是经过处理后并加载到关系型数据库中的数据,而结构化数据分析已经是一种逐渐趋于成熟的技术[4]。在铁路货运业务中,结构化数据分析可以通过各生产系统建设的数据仓库进行研究。例如分析数据量庞大的电子运单数据时,可以采用数据仓库的联机分析处理(OLAP),OLAP作为一种多维查询和分析工具,不但提高了查询速度,使数据库中大量数据得到有效地利用,同时也降低了服务器的性能损耗,如图2所示。

图2OLAP架构

非结构化数据是音频、视频和图片等文件,非结构化数据是不满足任何预定义模式的数据,可以加载到NoSQL等非关系型数据库中。通过传统的数据分析技术是不足以处理这类数据的。非结构化分析基于Hadoop、Spark等框架进行研究。其中对于分布式数据处理的抽象层次不高时,采用Hadoop分布式文件系统对数据存储并处理;Hadoop分布式文件系统(HDFS)是Hadoop应用中一个最主要的分布式存储系统。一个HDFS集群主要由1个元数据管理节点(NameNode)和很多个数据节点(DataNode)组成:NameNode管理文件系统的元数据,而DataNode存储了实际的数据。而对于需要使用机器学习及批处理等技术时,则使用Spark框架。主要采用的算法包括回归分析、统计分析、神经网络、支持向量机及深度学习等基础算法,如图3所示。

图3Hadoop分布式文件系统(HDFS)架构

目前在数据展示方面应用较多的工具是润乾报表,通过润乾报表可以根据自己的需求制定复杂的报表并进行数据分析。可以通过引入ECharts等第三方图库进行特色展示。基于html5Canvas的ECharts是一个纯Javascript图表库,兼容大部分浏览器。ECharts可以提供更直观、更生动的数据可视化图表,并且支持交互和个性化定制,满足个性化需求。具有丰富的可视化类型,通过散点图、折线图、柱状图、饼图、雷达图、K线图、热力图、漏斗图和仪表图的形式进行数据展示。此外ECharts提供了动态类型切换功能,让用户可以根据需要切换相应的图表类型和堆叠状态。同时也可以通过平台本身的数据展示模块进行数据动态的、实时的重绘操作。

大数据平台的建设并不是一蹴而就的,需要不断地探索与修正。大数据平台的实施步骤主要分为以下几部分。

业务分析主要包括对货运业务流程和需求的分析、确定数据源,通过对用户需求的调研明确分析目标和思路,确定要导入哪些数据、要得到哪些信息,从而确保数据分析有效进行。货物运输是铁路行业的核心支柱产业,在市场经营领域围绕货运业务,通过搜集货票数据、货运电子商务系统计划数据及更多货运系统的数据,可以进行货运业务额盈亏分析。通过对用户行为的大数据分析可以进一步提高市场营销能力。

数据规划包括通过对业务调研进行统一编码并确认,盘点已有数据资产,完善数据管理标准有效进行数据规范等,加快数据资源的整合共享[5]。

通过对原始数据进行分析,建立实体模型、建立数据库逻辑模型等来完成逻辑模型的设计。集团公司的大数据平台仍然处于探索阶段,初期应采取全开源架构,随着研究的不断深入再考虑更成熟的商业方案。在完成逻辑模型的设计后将其转换为物理模型,并进行压力测试与性能测试,提出优化方案。

围绕着已经明确的项目意图和商业目标让大数据真正地应用起来,通过数据挖掘得到有商用价值的信息为铁路货运业务提供数据服务与决策支持。

铁路货运大数据平台的建设是一个不断探索的过程。不仅需要分析铁路货运业务需求,形成铁路货运大数据的建设规划,也需要借鉴其他领域的大数据项目。经历不断的验证、修正、实施,来逐渐完成大数据平台的建设。铁路货运大数据平台将成为重要的资产数据、提供数据服务、通过预测分析能力支持哈尔滨局集团公司的各项决策。构建适合哈局货运业务发展的大数据平台,将提高挖掘货运数据价值的能力,成为货运业务增收的重要手段。铁路货运大数据方面的研究成果也可以逐步延伸到集团公司经营、生产、安全等领域,充分利用大数据技术,发挥其在提高效率、提高效益、优化服务、保障安全方面的作用,是集团公司在新时期的必然选择。

THE END
1.资源动态文献AI服务平台开通试用各位读者,图书馆开通文献AI服务平台试用,欢迎广大读者试用并及时反馈意见和建议。 试用期:2024年12月18日-2025年3月18日。 访问网址:https://xuewen.keyanjia.com/chat 访问方式:限校内IP地址范围内注册使用。 一、 文献AI服务平台简介 文献AI服务平台(Literature AI Service Platform)是首个面向图书馆界的文献AIhttps://lib.czu.edu.cn/info/1631/17191.htm
2.数字图书馆行业趋势:赋能行业迈向技术更新与深度融合发展新阶段内容概要:从数字图书馆的建设情况来看,目前中国已经形成了以国家图书馆为核心,以省级数字图书馆为主要节点,覆盖全国公共图书https://www.shangyexinzhi.com/article/23817968.html
3.成功登记数据知识产权大数据文化产业温州市图书馆自上线以来,该项目日均访问量4000余人次,总访问量150余万人次,获评为2024年文化和旅游部智慧图书馆创新应用优秀案例。 据了解,“温州智慧城市书房书房运营数据”,是指通过书房自助设备以及智慧城市书房治理端和驾驶舱等应用平台获取温州地区各个城市书房开放情况、读者行为数据、书房使用数据等,并通过大数据分析得出各地区https://www.163.com/dy/article/JJKS9HMB055616ZT.html
4.大数据分析展示平台图书馆大数据分析展示平台能够轻松的实现大数据的可视化呈现。以图书馆馆藏文献流通和读者入馆数据、活动发布数据等相关数据为基础,利用计算机技术对数据进行挖掘,对图书馆各信息系统产生的海量结构化数据进行分析与整理,提取有用的信息与知识,更好地服务于读者,提升图书馆服务能力。 http://www.ftzn.net/view/42.html
5.智慧图书馆解决方案图书馆大数据展示平台城市书房广东天卷面向各类阅读需求提供智慧图书馆解决方案、城市书房解决方案等整体解决方案,天卷自主研发的图书馆大数据展示平台产品全面覆盖智慧阅读生态系统的硬件设备、管理软件、数字资源、图书出版发行等,可根据客户需求提供不同类型的智慧阅读解决方案。https://www.tianjuan.com.cn/h-col-103.html
6.如何构建高校电子图书馆大数据平台?2025届毕业设计实战分享,大数据技术当前,虽然部分高校已经开始尝试将大数据技术应用于电子图书馆,但这些解决方案普遍存在数据处理效率低、系统扩展性差、用户个性化服务不足等问题。这些问题严重限制了电子图书馆功能的发挥,无法满足日益增长的用户需求,因此,研究并设计一套高效、可扩展的高校电子图书馆大数据平台成为当务之急。 https://blog.csdn.net/2301_79595671/article/details/141988704
7.电子书瀑布流大数据显示平台入驻图书馆为了方便读者的利用,提高图书馆智慧化水平,图书馆新近配备了电子书瀑布流和大数据展示平台。瀑布流电子图书借阅机是继博看报刊阅读机和歌德电子书借阅机之后图书馆里出现的新的阅读平台。超星大数据分析展示平台,是基于图书馆大数据智慧分析,通过数据建模以各种图表等形式将其转化为可视化直观展示效果,为图书馆各业务线的http://www.hetaodaxue.com/tsg/info/1010/1592.htm
8.10部全球顶级纪录片一个可以听的图书馆各地博物馆大数据平台 93、北京市博物馆大数据平台 【北京市文物局】 94、吉林省数字博物馆在线服务平台 【吉林省文物局】 95、“博物江西”可移动文物普查数据资源服务平台 【江西省文物局】 96、浙江省博物馆公共服务综合平台 【浙江省文物局】 97、河北数字博物馆公共服务平台【河北省文物局】 https://www.thepaper.cn/newsDetail_forward_5923374
9.陕西省图书馆(陕西省古籍保护中心)智慧图书馆大数据展示建设项目项目概况智慧图书馆大数据展示建设项目及网上办证服务项目(二次)的潜在投标人应在陕西省政府采购综合管理平台项目电子化交易系统(以下简称“项目电子化交易系统”)获取招标文件,并http://www.gdtzb.com/g-zb-27674283.html
10.大数据展示平台智慧图书馆大数据展示平台 KJZH-V1.0 智慧图书馆大数据展示平台通过和图书馆馆内所有信息系统数据的对接,并使用大数据分析及挖掘技术,将馆藏资源、信息系统数据及管理信息以模块化的形式向读者进行可视化展示。 功能特点 1.可以展示图书馆人流管控、图书馆藏数据读者借阅排行。 http://www.kejing.com/cn/product_12.htm
11.CNKI学术辑刊年鉴经济社会大数据研究平台等模块使用说明知识是一切创新的基础,海量文献资源是教科研活动、课题研究高质量开展的保障,为更好服务于我校教科研与教学创新工作,现针对CNKI学术辑刊、年鉴、经济社会大数据研究平台(包含统计年鉴)做具体的使用说明。 一、我校CNKI资源使用内容一览表 专辑备注说明: A基础科学,B工程科技Ⅰ辑 ,C工程科技Ⅱ辑 ,D农业科技 ,E医药http://www.gxjcxy.com/tsg/dzfw/content_12433
12.北京联合大学图书馆数据分析平台系统开发案例北京联合大学图书馆数据分析平台 作品详情 北京联合大学图书馆大数据综合治理、大数据存储、大数据展示为一体化的大数据项目。 项目底层应用大数据存储技术,对大量的非结构化数据进行整合处理。 通过模型分型,对图书馆关心的数据进行综合分析,例如阅读画像,资源分析等。https://www.proginn.com/w/1303069
13.网络中心4.5数字图书馆资源 4.6数字资源管理与共享 5教育教学 5.1总体要求 5.2产教融合办学 5.3信息化人才培养 5.4信息化教学与培训 5.5信息化教研科研 5.6信息化教学管理与评价 6管理服务 6.1总体要求 6.2一站式服务平台 6.3校务管理 6.4业务管理 6.5校园生活服务 http://www.xtzy.com/wlzx/detail.jsp?public_id=153330
14.西安决策参考据了解,目前国内鲜有此类平台,西安招商云平台数据内容全面,在智能化体验上、展示效果和载体呈现方式等方面均处于业内领先水平。下一步,西安招商云平台还将不断迭代升级,打造招商云平台3.0版本,重点依托5G网络、AI人工智能、大数据、云服务等前沿技术,基于海量数据的智能挖掘引擎,深入打造西安市招商服务“新基建”,为全http://www.xalib.org.cn/info/72757.jspx
15.大数据应用与服务平台大数据创新应用学生轨迹分析: 对学生各学年的成绩、餐厅消费、购物、进出图书馆的次数、借阅图书以及吃早餐的次数等数据进行分析研究,利用这些数据,不仅能预测出学生的学习状况,而且学校还可以依此引导他们更好地规划各自的学业和就业方向。 学生各学年成绩数据图 > >http://www.sytdc.com/xhtdZ/product4.html
16.基于大数据技术的科技信息服务系统研究与建设目前国内现有的信息服务系统大多还是建立在文献资源的展示上,在服务功能上只是一个文献资源的展示平台,实现了信息的有序浏览和统一检索,但缺乏“大数据”时代下必要的整合、挖掘、分析、评价等功能,不能有效地满足用户对知识的需求(胡维健.竞争情报系统商业软件甄别方法[J].图书馆杂志,2005,24(6):10-15.)。因此,https://cloud.tencent.com/developer/news/546293
17.中职在线教育平台官网入口,怎么注册4.1.1.6教师可通过平台上传课程所需要的教材、参 考书、参 考文献、视频等资源。课程的内容建设,参 考资料,课程介绍等任何位置都可以使用平台提供的海量图书、图片、视频的资源一键式搜索插入,插入的资源可以直接点击在线播放查阅,也支持自己上传资料,支持引用图书馆资源和联盟共享资源。 https://www.zhijiao.cn/news/detail/77842