导语:如何才能写好一篇数据分析,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
刚刚讲的对业务数据的准确把握需要遵循客观的经济行为和需求,这样才能让我们的数据结论更客观,但是数据分析很多情况的误读并非是我们故意的,这和经验和技能是密不可分的,我们需要掌握更多的技能和经验,没有这些技能和经验即便你对业务有很好的感觉和清晰的头脑,我们也同样得不到好的结果。所以我们不要盲目地崇拜某种数据分析方法,不要夸大数据分析模型的作用,更不要夸大数据分析案例的作用。只有适合、实用、准确才是硬道理。
“啤酒与尿布”是典型的购物篮分析,而购物篮分析是高端应用,高端应用往往意味着高投入,高投入就必须有高回报,仅凭一个从海量的交易数据中挖掘出销售额占比微不足道的“啤酒与尿布”的案例,就像我们从顾客的消费中去寻找哪种品牌的牙膏和哪种品牌的牙刷有关联一样,“只要有力气拿得起牙刷的人就一定会用到牙膏”也是勿庸置疑的常识!问题很可能会出在:购物小票上用来分析的牙膏和牙刷是两种商品(单品),而陈列在货架上的牙膏和牙刷却是两个颇有规模的商品群;数十种品牌、系列、口味、功效、不同的包装规格、不同的消耗周期、不同的单次购买数量、越来越快的产品更新换代、甚至在牙膏包装中赠送牙刷,这么多种因素的综合交错会大幅度地稀释牙膏牙刷在单品层面形成“同时并且重复购买的组合”的概率,对购物小票进行遍历分析后,很有可能会得出反常识的结论:牙膏、牙刷这两种商品之间没有关联性!这样的数据分析即使是准确的,也毫无意义。打动不了追求投资回报的企业决策者。
2数据分析模块与算法
2.1SVM算法SVM算法最初是由Vapnik等人在1995年提出的一种可训练的机器学习算法.依据统计学习理论、VC维理论和结构风险最小化理论,从一定数目的样本信息在学习能力和复杂度(对训练样本的学习程度)中找到最佳折中,以期望获得最好的推广能力(或称泛化能力).
2.2基于SVM的医疗数据分析模块将SVM分类算法应用到医疗数据分析模块中,进行疾病预测.基于SVM的医疗数据分析模块,通过数据交换模块获取原始组数据(患病病人医疗数据和对照组病人数据).通过特征选择过程输入到SVM分类器中进行训练,训练后可以对新的医疗数据进行分析预测.
3改进的医疗数据交换模块
4原始模型与改进模型的对比结果
关键词:实践教学CrystalReports数据分析应用型人才
中图分类号:G642.41文献标识码:CDOI:10.3969/j.issn.1672-8181.2013.19.087
1实践教学的分类
目前,高校人才培养目标正在向应用型人才方向转移,比如:独立学院、职业学院以及高职高专都明确提出他们的人才培养目标就是满足社会需要的实用型人才,而实用型人才培养的重要环节是加强实践教学,学生通过大量的实验活动提升自己的理论与实际操作水平。
一般认为,实践教学由基础型、设计型和综合应用创新型等三类各具特色并逐层深化的实践教育方式构成一个完整的体系。
1.1基础型实践教学
基础型实践教学由基础课及专业基础课中包含的演示型、基础型和设计型实验环节组成,目标在于巩固和提高学生学习的理论知识。
1.2设计型实践教学
设计型实践教学由专业课中的综合型试验或独立实践课程组成,目的在于进一步提高学生的动手能力、理论联系实践的能力及创新能力。该类实验采用在教师指导下,学生自主选题、自主设计、集体交流,鼓励创新和团队协作等新型实验教学方法,使学生的实践能力有跨越性的突破。
1.3综合应用与创新型实践教学
综合应用与创新型实践教学以学生参与各项校内外社会活动为主,学生可随不同的指导老师,按兴趣分组,按能力分工,着眼于学生实践能力的综合培养,着眼于潜力个性开拓,着眼于创新精神的激励。努力培养学生掌握企业管理和工程设计的基本方法,实现学生从具备一定实验能力到具有较高实战能力的跨越。
2CrystalReports系统
2.1CrystalReports简介
CrystalReports是SAP公司开发的、功能强大、动态和可操作的报表解决方案,它能读取多种数据源,在网络环境下设计、开发可视化报表,嵌入到企业ERP系统或普通应用系统中。在CrystalReports的帮助下,用户能够制作企业OLAP在线分析,进行企业业务,比如财务、生产和销售管理的在线分析,以便指导企业经营工作,全球很多大公司都在选用这个软件。
2.2CrystalReports特点
2.2.1丰富的呈现形式
多种报表样式:普通报表、交叉表和多维报表;
20多种图形:条形图、饼图、曲线图、甘特图、雷达图等,另外提供常用的报表模板。
2.2.2广泛的数据源连接
2.2.3可视化设计环境
通过拖放元素组成报表,设置标题,自定义变量,整合数据库字段等,有排序专家、分组专家、汇总专家和图标专家等向导。还有强大的公式语言:160多个系统函数,也可以自定义需要的函数。如图1所示。
图1CrystalReports的可视化设计界面
2.2.4多种文件导出格式
如:Word、Excel、HTML、XML、PDF、RTF、CSV、TXT等,方便将信息递交给不同需求的用户。
2.3学习CrystalReports软件的好处
对于信管专业的学生,培养目标包括三个方面:第一,掌握计算机科学和管理学的基本知识和技能;第二,具备进行信息系统分析、设计的能力;第三,能进行计算机知识和管理知识的交叉复合应用,能够在专业应用上有所创新。根据专业培养目标,要求信管专业的学生成为进行软件开发,进行OLTP在线事务处理和OLAP在线分析处理的应用型人才。
3利用CrystalReports进行实践教学的方法
CrystalReports既是一个在线分析软件也是一个报表开发工具,因此,可认为属于程序设计科目,我们把它作为理论课程《数据分析与挖掘》的实验部分介绍给信息管理和电子商务专业的学生是因为这门课程的主要内容是介绍数据库的OLAP在线分析和数据仓库的数据挖掘,在进行OLAP分析中,需要利用多维报表工具,而CrystalReports可以制作多维报表。
从CrystalReports的特点以及它的应用范围来看,可以把利用它进行的实践活动归类为设计型实践和综合应用与创新型实践相结合的实验项目,所以对同学们要求按照“规范设计,鼓励创新”的原则进行实验活动。
4取得的成果及对实验教学的思考
在经过实验专周的活动后,同学们完成了基于企业经营业务的在线分析OLAP实验,分组提交了各种报告,如图2所示。
图2学生的OLAP实验报告
从这些报告中,我们可以看出大部分同学完成情况良好,制作的图表美观大方,文本格式标准规范,大家通过实验理解了数据分析与挖掘的基本概念,学会了CrystalReports的操作方法,能够利用软件工具读取各种数据源,进行数据的OLAP在线分析,按照需要制作标准报表、交叉报表和多维报表,这个过程相当于对应用软件系统进行了二次开发,开发的结果为企业的经营决策提供重要的参考意见,达到了预期目标。
通过这些实验项目的实施,我们感觉到在实验教学应该注意如下几点:
第一,教学思想具备理念新颖性。
教学模式的构建受教学思想的支配,教学思想是教学模式的灵魂和核心,好的教学模式必须以先进的教学思想为指导,体现先进的教学理念。实施新颖的教学思想可以通过向同学们开出现代的、先进的学习科目来实现,比如:数据仓库、数据挖掘等。
第二,教学目标强调技术实用性。
在当今信息技术条件下,应用性人才必须能够将信息技术直接应用于工作实践中。实践教学的目的就是培养学生具备这样的应用能力,而不是简单地对理论的验证或对技术的一般了解,我们向同学们介绍CrystalReports就是出于提高他们技术能力的需要。
第三,教学内容充分考虑社会适应性。
应用型人才培养是以某一技术领域或职业岗位的能力培养为核心。因此,实践教学的内容必须满足社会适应性的能力要求,同时还要提供适应学生可持续发展需要的能力和素质。在内容体系的组织上,实践教学与理论教学必须相互渗透,理论知识需要通过实践再认识,并通过实践课程来实现。
第四,教学手段突出技术先进性。
当代电子信息技术的快速发展,使得教育技术手段得到极大的提高,先进的教学技术对教学模式的改革起到了直接的推动作用,多媒体技术的普及,使仿真训练等更多地应用于实践教学。比如Cisco公司的PacketTracer网络模拟仿真软件就是一个非常好的例子,在我们的教学过程中,我们也采用了这个软件向同学们介绍计算机网络知识,效果非常显著。
总之,实践教学需要走不断改革创新之路,满足社会对应用型人才的需求,开辟实践教学的新途径,找出新办法,培养合格的社会需要、国家需要的应用型、复合型人才。
1.行业资金流向
分析:今天只有白色家电、有色冶炼加工、房地产开发和医药商业四个行业呈现出资金净流入状态,以二三线的蓝筹股和白马股为主。在早盘上证指数冲高的过程中,起到了一定的引领作用,但受制于整体市场情绪的低迷,下午短线资金纷纷出逃,最终只有白色家电板块的净流入量超过了1亿。
2.港资动向
因圣诞假期,香港股市今天休市,港资无交易
3.赚钱效应
分析:今日上涨家数720家,下跌家数2422家,涨跌比为0.30。涨停板家数25家,扣除5家未开板新股后,自然涨停板家数20家,其中医药类次新股5家,非医药类次新股5家,细胞免疫治疗概念1家,其他类9家。
从中可以看出,具有板块性效应的主要是医药股和次新股,尤其是其中的叠加品种,这与上周五次新+天然气的模式可谓是如出一辙,在目前相对弱势的情况下,资金还是更青睐一些叠加热点概念的小盘次新股。
昨日涨停板溢价为2.38%,与上个交易日基本持平,强势股的持续性还是很一般,但由于个股涨跌比出现了明显的下降,所以整体的赚钱效应是降低的,操作难度则是相对的有所提升。
不可否认,现在已经是大数据的时代了,最近几年,大数据发展趋势蓬勃向上,吸引了社会各界的眼光,大家都看好大数据,想从大数据中获得商机和财富。大数据也没让大家失望,在科研、教育、医疗、政府、经济等领域都产生了深远影响。据统计,目前大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。
但是,面对纷繁复杂的数据,不是所有人都能有效地对其进行分析,并获取其背后信息所代表的价值的。那么,有没有什么办法让普通人也能轻易读懂并使用大数据呢?
需求决定市场,随着非科研人员对大数据需求的增大,很多大数据领域的创业公司不断涌现,他们致力于将大数据以一种简单直观地方式呈现给用户,让用户能更好地“消化”这些数据。
OrigamiLogic就是这样一家基于大数据的创业公司,它面向营销人员,主要通过数据可视化、自助分析等方式,将大数据“简单化”,让即使不了解大数据的营销人员也能根据OrigamiLogic提供的分析结果做出更有效的营销策略。
可视化是大数据简单化的有效方式,也是创业公司常用方法。《数据可视化之美》一书中指出,可视化是将数据以图形表示,能够一目了然地揭示数据中的复杂信息,同时通过对细节的翔实展示,能够使受众有效地产生对数据的洞察和新的理解。可视化可以帮助人们突破大数据技术中人的瓶颈。
通过OrigamiLogic,营销人员可以通过将CRM、社交媒体、邮件营销和调查报告等不同平台的数据汇合整理在一起,并将冗杂的数据(包括邮件、文档、图片、音频等)进行有效分析处理,使其简单化、直观化、视觉化,让它变成普通的用户都能看得懂的东西,然后依据这些统计分析结果来衡量整个营销效果,并做进一步的营销活动规划。OrigamiLogic把“大数据”真正变成一盘生意。
一、汽车制动性能检验方式及检验参数
通过汽车制动试验台进行制动性能检测不仅可以测得各车轮的制动力大小,还可以了解汽车前、后轴制动力的分配情况,以及同一轴两侧车轮的制动力平衡状况。根据制动力的大小,可评价车辆的制动效能;根据左、右车轮制动力的平衡情况,可衡量车辆制动时的方向稳定性。在实际检测过程中,我们发现,经常出现从检测滚筒中“爬出”的现象。当在非检测轴车轮后加楔块给车辆一定的纵向约束时,这种现象消失或程度减轻,这时制动力实测值增大(接近实际情况)。上述现象说明:用目前的反力式制动试验台检测车辆制动力时,特别是轻型车辆制动力检测时,因对非测试轮不施加水平约束(忽略滚动阻力的影响),测试时使汽车以较快的速度从滚筒中后退,或因滚筒与被测轮轮胎间的附着力过小而使车轮滑转,结果造成能够测得的制动力偏低。且车辆为静态,未能反映车辆动态轴荷的变化,不能如实的反映车辆真实的制动水平。
原因分析
一、根据滚筒式制动力检测台的工作原理及特点分析;
1.安置角影响检测结果,同一汽车在具有不同滚筒直径和滚筒心距的检测设备上检测时,检测数据会产生较大差异。
2.滚筒与轮胎之间的附着系数沪对检测结果影响很大。当附着系数低时,将测不出车轮可以达标的制动能力。
3.车轴所受的水平约束力,直接影响检测的结果。
4.车位不正对检测结果的影响,车位不正时,在进行制动检测过程中,必然会使左右车轮的安置角产生差异,产生附加的左、右轮制动力之差,使汽车制动方向稳定性的判断失真。
5.其它车轮制动效能对被测车轮亦有影响。
二、汽车制动性能检测中存在的问题
1.检测设备的局限性
不同的制动性能检测设备各有其特点,且存在一定的局限性。以平板式制动试验台和滚筒式制动试验台为例加以说明。
1.1整车的运动状态不一致
行驶的车辆在制动过程中做减速运动,因而汽车的质量会发生向前轴转移,而在滚筒制动试验台上车辆是静止不动的,车辆质量转移的现象不会出现,这样会形成静态检测与动态实际制动之间的差异性。平板制动试验台是凭借汽车在测试平板上实施紧急制动过程来测定汽车前后制动力的,是动态检测,因而符合汽车制动的实际过程,容易获得汽车真实制动检测结果。特别是对装有ABS防抱死制动系统的车辆检测更为有效。
1.2车轮的受力状况不一致
车轮在路面运行中,只是轮心下方的一小块面积与地面接触,而在滚筒试验台上的车轮由于轮胎气压、外径尺寸等问题,导致车轮受力状况与实际制动时的受力状况不一致,直接影响检测结果。平板式制动检测设备不存在“安置角”问题,测试时车轮的受力状况接近于实际制动时的受力状况。
1.3测试时机不一致
车辆在制动过程中前后桥是几乎同时作用的,但滚筒式制动试验台必须分别对前后桥进行制动测试。这样的测试结果能反映前后桥的同步情况与制动力的分配,对装有比例阀车轮的制动测试更为适用。
2滚筒制动试验台检测常见问题
2.1被测车轮抱死滑磨
被测车轮停在滚筒上,滚筒带动车轮旋转,当对被测车轮采取制动时,车辆的制动力便传递给滚筒。随着制动力的增大,当达到车轮与滚筒间的附着力时,车轮就会抱死在滚筒上打滑,测试到的制动力达到最大。车轮制动力再增大,测试到的制动力不变。由此可见,所能检测到的最大制动力与轴荷、设备结构和附着系数有关。
关键词:大数据;数据仓库;数据分析;校园卡;教务
随着大数据时代的到来,各行各业都在利用大数据推动本领域的发展。常熟理工学院自2009年开展教育信息化建设以来,在数据分析方面进行了不断地探索与实践,目前广泛应用于教学和管理中。
一、数据分析的必要性和可行性
高校内部一般都建有:教务系统、科研系统、学工管理系统、人事管理系统、资产管理系统等独立业务系统。这些系统都各自记录着学校方方面面的数据,却都静静地躺在服务器硬盘里,犹如埋藏在地下的金矿,不能为高校全局决策提供支撑。
数据分析的目的就是要让数据发声,通过直观的数据图表来为高校管理提供辅助决策。例如:对教师的专业与学校开设专业的统计分析可以为人才引进提供参考;对学生的校园卡使用记录和校内上网认证记录结合起来,可以为判断学生的行为指明方向;对各二级学院的资产数据统计分析有助于学校对二级学院进行成本核算。
二、数据仓库的建立
数据库是数据分析的源头,数据仓库的建立是数据分析的基础。
建设过程中,首先要统一数据标准,只有准确的数据才是有价值的,如果各系统的数据标准不统一,就会造成不准确的数据分析结果,也就无法为高校管理提供真实有效的统计数据;
其次要建立公共数据平台,公共数据平台是指实现校园内各种信息系统的互通互连和数据共享,包括多个系统业务数据集中存储、备份、数据共享和数据管理的公共平台,为学校各应用系统提供基础数据;
三是要规范数据流程,把各业务系统中形形的数据按标准定期抽取到学校公共数据平台中。确保任何业务系统的添加和修改不影响其他系统的正常运行,同时新建应用系统应建立在统一的数据规范基础和统一身份认证基础上,调用公共数据平台的基础数据(如部门、教工、学生等基础信息),应用系统产生的数据也应成为公共数据平台的基础数据,可供数据平台共享访问。确保提供反映学校全面情况的数据信息,为整个学校提供决策支持所需的数据信息,为今后应用系统的建设和信息服务奠定良好的数据基础。
三、基于数据仓库的数据分析
在统一数据仓库的基础上,我们利用数据仓库技术(ETL、OLAP、REPORT)和数据挖掘技术,对多种数据集市进行数据分析,建立了校情综合统计分析系统。该系统从学校基本情况、教职工信息、学生信息、教学信息、科研信息、资产与设备信息、图书资料信息与师生消费等方面进行统计分析,为学校管理提供辅助决策支撑数据。
该系统从学校全局出发,通过多元主题展开分析,以文字、报表、图表等多种形式展现分析成果。
该系统的推出实现了教学质量、学生学习、生活行为等各种信息的监控与分析,对高校资源配置优化、提高高校管理科学化等方面具有不可估量的重要意义。这里笔者将以校园卡和教务数据分析功能为例进行阐述。随着校园卡在校园生活中使用范围的日益扩大,在应用过程中产生了大量数据。校园卡仅仅一年的交易数据就有大约1000万条记录。
校园卡数据分析主要实现以下五大类的分析功能:
①从“月、季度、半年、年”的角度来查询消费总额、消费用户数和人均消费等,反映出用户消费支出的趋势,也可反映出物价的变化情况。
③从“早、中、晚”的角度统计分析学生早餐、中餐、晚餐的就餐率。
(2)各类消费人群消费情况分析
①对于学生工作管理层来说,从“个人、班级、院系”的角度来查询消费金额作为发放贫困补助的依据。
③从学生所属院系、专业、年级等角度来查询消费人数、消费金额和分布情况。
⑤分析教职工的消费水平。
(3)各营业单位消费情况分析
从各个营业单位角度来查询校园用户消费人数,消费金额和分布情况。
(4)各交易类型消费情况
从消费类型角度来查询用餐、购物、上网、上机、水电消费等情况。
(5)工作站、终端个数统计
为直观反映上述消费数据,我们除用表格形式将分析结果展现在用户终端外,还提供了柱状图、饼图、曲线图、点图等形式来展现。图2展示了我校2010年至2014年学生早、中、晚三餐平均价格,呈逐年稳步上升状态,这给餐饮部门提供准确统计数据的同时,也稳定了学生就餐消费水平的承受心理。
高校教学信息化建设积累了丰富的业务数据,根据需求,教务数据分析功能主要包括三大类:教学任务、学生成绩和教学评价。图3为教务数据分析数据源视图,围绕教师的教学工作量、学生取得的成绩以及学生对教师的评价等,我们做了一系列的报表。例如:教学场地信息、学生情况、任课教师情况、各学期教学任务情况、成绩信息、教学评价、历年各专业招生人数、各学院历年教学情况、各学院历年学生对教师评价。
数据分析表明,教师平均教学任务逐年增多,教师总体比较年轻,平均年龄男教师比女教师高,年龄在30-39之间的教师平均课时最多。管理学院历年招生数比其它学院明显高出很多,其中财务管理专业的学生数百分比最高。我校学生的成绩也完全符合正态分布曲线要求。
四、结束语
大数据分析是一种发展趋势,我们目前也仅仅就单项主题进行了逐个分析,如果把这些主题串起来,进行关联分析,将会得出更有趣更有价值的结果,这也是将来我们努力的方向。
参考文献:
[1]戴红芳,冯翔,先晓兵等.商业智能在校园一卡通中的研究与实践[J].微电子学与计算机,2012,29(7):175-179.
[2]戴红芳.基于多维数据模型的校园卡数据分析[D].上海:华东理工大学,2011.
关键词:告警数据HadoopSpark
1引言
在一般告警量情况下,ORACLE数据处理能力基本可以满足分析需求,但当告警分析量上升到亿级,如果采用传统的数据存储和计算方式,一方面数据量过大,表的管理、维护开销过大,要做到每个字段建索引,存储浪费巨大;另一方面计算分析过程耗时过长,无法满足实时和准实时分析需求。因此必须采用新的技术架构来分析处理海量告警信息,支撑主动维护工作显得尤为必要,为此我们引入了大数据技术。
2分析目标
(1)数据源:电信运营商网络设备告警日志数据,每天50G。
(2)数据分析目标:完成高频翻转类(瞬断)告警分析;完成自定义网元、自定义告警等可定制告警分析;完成被过滤掉的告警分析、TOPN告警分析;核心设备和重要业务监控。
(3)分析平台硬件配置:云计算平台分配8台虚拟机,每台虚机配置CPU16核;内存32G;硬盘2T。
3制定方案
进入大数据时代,行业内涌现了大量的数据挖掘技术,数据处理和分析更高效、更有价值。Google、Facebook等公司提供可行的思路是通过类似Hadoop[2]的分布式计算、MapReduce[3]、Spark[4]算法等构造而成的新型架构,挖掘有价值信息。
Hadoop是Apache基金会用JAVA语言开发的分布式框架,通过利用计算机集群对大规模数据进行分布式计算分析。Hadoop框架最重要的两个核心是HDFS和MapReduce,HDFS用于分布式存储,MapReduce则实现分布式任务计算。
一个HDFS集群包含元数据节点(NameNode)、若干数据节点(DataNode)和客户端(Client)。NameNode管理HDFS的文件系统,DataNode存储数据块文件。HDFS将一个文件划分成若干个数据块,这些数据块存储DataNode节点上。
MapReduce是Google公司提出的针对大数据的编程模型。核心思想是将计算过程分解成Map(映射)和Reduce(归约)两个过程,也就是将一个大的计算任务拆分为多个小任务,MapReduce框架化繁为简,轻松地解决了数据分布式存储的计算问题,让不熟悉并行编程的程序员也能轻松写出分布式计算程序。MapReduce最大的不足则在于Map和Reduce都是以进程为单位调度、运行、结束的,磁盘I/O开销大、效率低,无法满足实时计算需求。
Spark是由加州伯克利大学AMP实验室开发的类HadoopMapReduce的分布式并行计算框架,主要特点是弹性分布式数据集RDD[5],中间输出结果可以保存在内存中,节省了大量的磁盘I/O操作。Spark除拥有HadoopMapReduce所具有的优点外,还支持多次迭代计算,特别适合流计算和图计算。
基于成本、效率、复杂性等因素,我们选择了HDFS+Spark实现对告警数据的挖掘分析。
4分析平台设计
4.1Hadoop集群搭建
基于CentOS-6.5系统环境搭建Hadoop集群,配置如表1所示。
4.2Spark参数设置[6]
Spark参数设置如表2所示。
4.3数据采集层
数据采集:由于需采集的告警设备种类繁多,故采取分布式的告警采集,数据网设备、交换网设备、接入网设备分别通过IP综合网管、天元综合网管、PON综合网管进行采集,采集周期5分钟一次。采集机先将采集到的告警日志文件,通过FTP接口上传到智能网管系统文件服务器上,再对文件进行校验,通过Sqoop推送到Hadoop集群上。
4.4逻辑处理层
(1)建立高频翻转告警监控工作流程
(2)差异化定制方案
按组网架构细分,针对核心重要节点的所有告警均纳入实时监控方案;
按业务网络细分,针对不同业务网络设计个性化的监控方案;
按客户业务细分,针对客户数字出租电路设计个性化的监控方案。
4.5数据分析层
Spark读取Hive[7]表的告警数据,然后在Spark引擎中进行SQL统计分析。SparkSQL模K在进行分析时,将外部告警数据源转化为DataFrame[8],并像操作RDD或者将其注册为临时表的方式处理和分析这些数据。一旦将DataFrame注册成临时表,就可以使用类SQL的方式操作查询分析告警数据。表3是利用SparkSQL对告警工单做的一个简单分析:
5平台实践应用
探索运维数据分析的新方法,利用大数据分析技术,分析可能影响业务/设备整体性能的设备告警,结合网络性能数据,找到网络隐患,实现主动维护的工作目标。
5.1高频翻转类告警监控
首先制定了高频翻转类告警分析规则,将连续7天每天原始告警发生24次以上定义为高频翻转类告警,并基于大数据平台开发了相应的分析脚本,目前已实现全专业所有告警类型的分析。表4是全省高频翻转类TOP10排名。
5.2核心设备和重要业务监控
5.3被过滤告警分析
全省每天网络告警数据300万条~500万条,其中99%都会根据告警过滤规则进行过滤筛选,把过滤后的告警呈现给网络监控人员。过滤规则的准确性直接影响告警数据的质量。一般来说告警过滤规则可以从具有丰富运维经验的网络维护人员获得,但是这个过程非常繁琐,而且通过人工途径获得的告警过滤规则在不同的应用环境可能存在差异,无法满足网络维护的整体需要。采用大数据技术对被过滤的告警进行分析可以很好地完善过滤规则,让真正急迫需要处理的告警优先呈现给维护人员及时处理,真正做到先于客户发现故障。表5是动环专业被过滤的告警情况分布。
5.4动环深放电分析
6结论
从实际运行效果来看,HDFS和Spark完全可以取代传统的数据存储和计算方式,满足电信运营商主动运维的需求。
[1]中国电信股份有限公司.中国电信智能网管技术规范-总体分册[Z].2015.
[2]Tomwhite.Hadoop权威指南[M].4版.南京:东南大学出版社,2015.
[3]RPRaji.MapReduce:SimplifiedDataProcessingonLargeClusters[Z].2004.
[5]MateiZaharia,MosharafChowdhury,TathagataDas,etal.ResilientDistributedDatasets:AFault-TolerantAbstractionforIn-MemoryClusterComputing[J].UsenixConferenceonNetworkedSystemsDesign&Implementation,2012,70(2):141-146.
[6]S鹏.ApacheSpark源码剖析[M].北京:电子工业出版社,2015.
[8]HoldenKarau,AndyKonwinski,PatrickWendell,etal.LearningSpark:Lightning-FastBigDataAnalysis[M].Oreilly&AssociatesInc,2015.
[9]员建厦.基于动态存储策略的数据管理系统[J].无线电工程,2014,44(11):52-54.
[关键词]数据挖掘;技术;电信技术
0.前言
我国电信行业一直以来呈现出中国移动、中国联通、中国电信三足鼎立的状态,但是,随着市场经济的进一步完善,我国政府逐渐放开了对电信行业的准入管制,越来越多的国外电信运营商进入中国市场,这使得国内电信市场的竞争压力不断增加,另外,随着我国消费者的日趋成熟,对电信运营商的服务质量要求逐渐提高,这一切都使得我国电信运营商面临巨大挑战,具体来看主要是成本增加、顾客流失、资源浪费,传统的管理方法已经不能适应形势发展的要求,为了有效整合和利用资源,要求电信运营商借助信息化管理模式处理大量客户信息和消费数据,从中挖掘有价值的商业信息,从而制定出符合消费者期望的优质服务策略。数据挖掘技术正好符合了电信行业发展的要求。
1.数据挖掘的概念
数据挖掘指的是从这些混乱的、无序的、模糊的、随机的、不完全的数据当中找出人们事先不知道但是具有潜在价值的信息和知识。从本质上说,数据挖掘是一种深层次的数据分析方法。人们根据数据挖掘任务的不同,把数据挖掘分为不同的类型,例如分类和预测模型发现,序列模式发现,数据归类、聚类、关联规则发现,依赖关系和依赖模型发现等等[1]。根据挖掘方法可以认为统计学方法、机器学方法、数据库方法以及神经网络方法.
2.数据挖掘的功能
总的来说,数据挖掘具有五大功能,即分类功能、聚类功能、预测功能、偏差检验功能以及关联规则和序列模式发现功能。分类功能就是按照研究的对象的属性建立不同的组类来描述对象。聚类功能就是把数据集合分组为由相似的对象组成的多个类别当中,即通过间接相似度把类之间的差异识别出来,并挑选类之中的相似样本。预测功能就是根据数据属性特征等对数据进行评估分析,从而预测其他未知属性。常用的预测方法有回归分析算法、神经网络算法等。偏差检测功能是对数据库中存在的异常记录进行排除,从而确保数据库的安全稳定,降低风险。关联规则和序列模式发现功能关联分析就是找出数据库中各种隐藏的关联性。
3.基于数据挖掘的电信数据分析
将数据挖掘引入电信数据分析,其目的就是深入挖掘顾客的消费行为,探明客户的特征、行为方式、理解客户的价值,从而为电信运营商制定市场营销策略提供科学的依据。
3.1电信业务下滑客户分析
随着市场竞争堵塞加剧,电信顾客的流动性增大,因此,要想增强企业的竞争力,首先必须保持稳定的客户,防治客户的流失,并在此基础上吸引新的客户。首先建立电信业务下滑客户聚类模型,对客户数据进行聚类,先确立不同的聚类标准作为节点,对用户进行聚类分析,然后表节点把非业务下滑客户列出来。把那些消费波动较大的用户作为业务流失或退订的客户群。最后用表节点把业务下滑的客户数据用表列出来。其次,电信客户业务下滑原因分析。这是在前面的基础上进一步分析客户业务下滑客户的特征和原因,这里首先需要构建数据训练集,把先前聚类的业务下滑客户挑选出来,为了充分表现出业务下滑客户与非业务下滑客户的特征,将它们的比例设为1:1,然后建立决策树,从客户的在网时长、长途费用、客户使用的服务品牌这三方面的具体信息出发,做出有针对性的商业决策[2]。
3.2电信用户GPRS业务关联分析
GPRS业务关联分析模型主要有商业需求分析、数据预处理、数据集、高价值客户聚类、高价值客户数据集、GPRS业务关联分析、模型评估、模型等环节。首先商业需求分析。通过运用数据挖掘技术分析GPRS业务用户的特征、潜在用户、用户偏好、消费潜力等,建立GPRS业务关联模型进行分析研究,发现其中的规律,由此预测出业务的潜在客户群,协助企业扩大用户规模、获得更大利润。其次是数据处理。先根据客户性质,将其划分为多个群,找出最有价值的客户群。再利用关联性原则分析客户偏好,进而进行相应产品和服务的研究。其次,挖掘电信GPRS业务高价值客户群。为了建立有效模型,首先要进行聚类分析。按照客户消费金额分为几种不同的类型。以其中一个点为高价值客户的最低要求。从而找出高价值客户群。第三电信客户GPRS业务关联分析。该环节的目的是要找出关联大的业务。然后根据分析结果进行业务销售。
3.3电信非绑定GPRS业务客户预测
4.小结
本文以中国移动某分公司的研究项目“某移动业务精确营销模型研究及推广”为背景,在数据挖掘理论和技术的基础上,将数据挖掘技术的聚类分析算法、关联规则算法、决策树算法应用于电信数据分析。
参考文献
[1]舒正渝.浅谈数据挖掘技术及其应用[J].中国西部科技,2010,9(5):38-39.
[2]巩建光.面向电信领域的数据挖掘关键技术研究[D].哈尔滨工程大学,2012:38-39.
福建省高速公路有限公司运用微软大数据解决方案,对视频图像、交通流、交通环境等结构和非结构数据进行管理,对数据中包含的车辆、车主、收费站、地理位置等关联信息进行分析,改善道路管理效率和用户出行体验……
大掌控、大智汇、大洞察
在大数据成为流行词之前,微软便已着手于大数据的应用与研发,例如微软Bing的高质量搜索结果,便是通过分析超过100PB的数据得到的。微软大数据解决方案的目标,是让所有用户都能获得来自任何数据有价值的洞察力。
微软大中华区副总裁兼市场战略部副总经理、大中华区首席云战略官谢恩伟介绍,为了实现这一目标,微软为大数据解决方案制定了全面的战略——大掌控、大智汇、大洞察。
大掌控,即“支持所有数据类型的现代化的管理层”。微软大数据解决方案的数据管理平台可以无缝地存储和处理包括结构化、非结构化和实时数据在内的所有类型的数据。微软推出的HDInsight是一种适合企业使用的、基于HDP的Hadoop服务,它将Windows的简易性和可管理性带给Hadoop,提供了结合Hadoop的扩展平台,并为大数据提供了灵活且可扩展的云。
大智汇,即“搜索并结合广泛数据,进行先进分析与精炼,从而提高数据价值的富集层”。微软大数据解决方案,通过将数据和模型与公开的数据服务相结合,实现了突破性的数据发现,例如自动发现与共享防火墙外部的和第三方的数据源等。
大洞察,即“用户熟悉的工具可为用户提供具有直观洞察力的洞悉层”。微软大数据解决方案可以使客户通过熟悉的由Hiveadd-inforExcel生成的Excel界面,从Hadoop功能中获取有价值的洞察力,也可经由企业熟悉的BI工具,如SQLServer分析服务、PowerPivot和通过HiveOpenDatabaseConnectivity驱动生成的PowerView来分析Hadoop中的非结构化数据。
数据分析结果要“傻瓜化”
“我们要将挖掘与分析的结果直观呈现,转换为用户真正需要的有价值的洞察力。”微软全球高级副总裁、大中华区董事长兼首席执行官贺乐赋说。
贺乐赋说,微软大数据解决方案通过智能化的、甚至是基于云端的平台和服务去管理和分析数据,从中获取有价值的洞察信息,再以用户最熟悉、最直观的形式表现出来,从而帮助用户做出决策。