进入21世纪以来,随着高新科技的迅猛发展和经济全球化发展的趋势,我国国民经济迅速增长,各行业、领域的发展也颇为迅猛,人们生活水平与日俱增,在物质生活得到极大满足的前提下,更加追求精神层面以及视觉上的享受,这就涉及到数据信息方面的内容。在经济全球化、科技一体化、文化多元化的时代,数据信息的作用和地位是不可小觑的,处理和归类数据信息是达到信息传递的基础条件,是发展各学科科技交融的前提。
然而,世界上的一切事物都包含着两个方面,这两个方面既相互对立,又相互统一。矛盾即对立统一。矛盾具有斗争性和同一性两种基本属性,我们必须用一分为二的观点、全面的观点看问题。同时要积极创造条件,促进矛盾双方的相互转变。数据信息在带给人们生产生活极大便利的同时,还会被诸多社会数据信息所困扰。为了使广大人民群众的日常生活更加便捷,需要其客观、正确地使用、处理数据信息,完善和健全数据分析技术和数据挖掘手段,通过各种切实可行的数据分析方法科学合理地分析大数据时代下的数据,做好数据挖掘技术工作。
1实施数据分析的方法
在经济社会快速发展的背景下,我国在科学信息技术领域取得长足进步。科技信息的发展在极大程度上促进了各行各业的繁荣发展和长久进步,使其发展更加全面化、科学化、专业化,切实提升了我国经济的迅猛发展,从而形成了一个最佳的良性循环,我国也由此进入了大数据时代。对于大数据时代而言,数据分析环节是必不可少的组成部分,只有科学准确地对信息量极大的数据进行处理、筛选,才能使其更好地服务于社会,服务于广大人民群众。正确处理数据进行分析过程是大数据时代下数据分析的至关重要的环节。众所周知,大数据具有明显的优势,在信息处理的过程中,需要对大容量数据、分析速率,以及多格式的数据三大问题进行详细的分析和掌握。
1.1HadoopHDFS
HDFS,即分布式文件系统,主要由客户端模块、元数据管理模块、数据存储服务模块等模块组成,其优势是储存容量较大的文件,通常情况下被用于商业化硬件的群体中。相比于低端的硬件群体,商业化的硬件群体发生问题的几率较低,在储存大容量数据方面备受欢迎和推崇。Hadoop,即是分布式计算,是一个用于运行应用程序在大型集群的廉价硬件设备上的框架,为应用程序的透明化的提供了一组具有稳定性以及可靠性的接口和数据运动,可以不用在价格较高、可信度较高的硬件上应用。一般情况下,面对出现问题概率较高的群体,分布式文件系统是处理问题的首选,它采用继续运用的手法进行处理,而且还不会使用户产生明显的运用间断问题,这是分布式计算的优势所在,而且还在一定程度上减少了机器设备的维修和维护费用,特别是针对于机器设备量庞大的用户来说,不仅降低了运行成本,而且还有效提高了经济效益。
1.2Hadoop的优点与不足
其次,Hadoop需求社会具备投资构建的且专用的计算集群,在构建的过程中,会出现很多难题,比如形成单个储存、计算数据信息和储存,或者中央处理器应用的难题。不仅如此,即使将这种储存形式应用于其他项目的上,也会出现兼容性难的问题。
2实施数据挖掘的方法
2.1分类法
2.2回归分析法
2.3Web数据挖掘法
3大数据分析挖掘体系建设的原则
随着改革开放进程的加快,我国社会经济得到明显提升,人们物质生活和精神文化生活大大满足,特别是二十一世纪以来,科学信息技术的发展,更是提升了人们的生活水平,改善了生活质量,计算机、手机等先进的通讯设备比比皆是,传统的生产关系式和生活方式已经落伍,并逐渐被淘汰,新的产业生态和生产方式喷薄而出,人们开始进入了大数据时代。因此,为了更好地收集、分析、利用数据信息,并从庞大的数据信息中精准、合理地选择正确的数据信息,进而更加迅速地为有需要的人们传递信息,就需要建设大数据分析与挖掘体系,并在建设过程中始终遵循以下几个原则。
3.1平台建设与探索实践相互促进
经济全球化在对全球经济发展产生巨大推力的同时,还使得全球技术竞争更加激烈。为了实现大数据分析挖掘体系良好建设的目的,需要满足平台建设与探索实践相互促进,根据体系建设实际逐渐摸索分析数据挖掘的完整流程,不断积累经验,积极引进人才,打造一支具有专业数据分析与挖掘水准的队伍,在实际的体系建设过程中吸取失败经验,并适当借鉴发达国家的先进数据平台建设经验,取其精华,促进平台建设,以此构建并不断完善数据分析挖掘体系。
3.2技术创新与价值创造深度结合
从宏观意义上讲,创新是民族进步的灵魂,是国家兴旺发达的不竭动力。而对于数据分析挖掘体系建设而言,创新同样具有重要意义和作用。创新是大数据的灵魂,在建设大数据分析挖掘体系过程中,要将技术创新与价值创造深度结合,并将价值创造作为目标,辅以技术创新手段,只有这样,才能达到大数据分析挖掘体系建设社会效益与经济效益的双重目的。
3.3人才培养与能力提升良性循环
意识对物质具有反作用,正确反映客观事物及其发展规律的意识,能够指导人们有效地开展实践活动,促进客观事物的发展。歪曲反映客观事物及其发展规律的意识,则会把人的活动引向歧途,阻碍客观事物的发展。由此可以看出意识正确与否对于大数据分析挖掘体系平台建设的重要意义。基于此,要培养具有大数据技术能力和创新能力的数据分析人才,并定期组织教育学习培训,不断提高他们的数据分析能力,不断进行交流和沟通,培养数据分析意识,提高数据挖掘能力,实现科学的数据挖掘流程与高效的数据挖掘执行,从而提升数据分析挖掘体系平台建设的良性循环。
4结束语
参考文献
[1]唐东波.基于神经网络集成的电信客户流失预测建模及应用[J].大众商务,2010(06).
[2]刘蓉,陈晓红.基于数据挖掘的移动通信客户消费行为分析[J].计算机应用与软件,2006(02).
[3]魏娟,梁静国.基于数据挖掘技术的企业客户关系管理(CRM)[J].商业研究,2005(07).
[4]田苗苗.数据挖掘之决策树方法概述[J].长春大学学报,2004(06).
[5]王晓佳,杨善林,陈志强.大数据时代下的情报分析与挖掘技术研究――电信客户流失情况分析[J].情报学报,2013.
[6]刘京臣.大数据时代的古典文学研究――以数据分析、数据挖掘与图像检索为中心[J].文学遗产,2015.
福建省高速公路有限公司运用微软大数据解决方案,对视频图像、交通流、交通环境等结构和非结构数据进行管理,对数据中包含的车辆、车主、收费站、地理位置等关联信息进行分析,改善道路管理效率和用户出行体验……
大掌控、大智汇、大洞察
在大数据成为流行词之前,微软便已着手于大数据的应用与研发,例如微软Bing的高质量搜索结果,便是通过分析超过100PB的数据得到的。微软大数据解决方案的目标,是让所有用户都能获得来自任何数据有价值的洞察力。
微软大中华区副总裁兼市场战略部副总经理、大中华区首席云战略官谢恩伟介绍,为了实现这一目标,微软为大数据解决方案制定了全面的战略——大掌控、大智汇、大洞察。
大掌控,即“支持所有数据类型的现代化的管理层”。微软大数据解决方案的数据管理平台可以无缝地存储和处理包括结构化、非结构化和实时数据在内的所有类型的数据。微软推出的HDInsight是一种适合企业使用的、基于HDP的Hadoop服务,它将Windows的简易性和可管理性带给Hadoop,提供了结合Hadoop的扩展平台,并为大数据提供了灵活且可扩展的云。
大智汇,即“搜索并结合广泛数据,进行先进分析与精炼,从而提高数据价值的富集层”。微软大数据解决方案,通过将数据和模型与公开的数据服务相结合,实现了突破性的数据发现,例如自动发现与共享防火墙外部的和第三方的数据源等。
大洞察,即“用户熟悉的工具可为用户提供具有直观洞察力的洞悉层”。微软大数据解决方案可以使客户通过熟悉的由Hiveadd-inforExcel生成的Excel界面,从Hadoop功能中获取有价值的洞察力,也可经由企业熟悉的BI工具,如SQLServer分析服务、PowerPivot和通过HiveOpenDatabaseConnectivity驱动生成的PowerView来分析Hadoop中的非结构化数据。
数据分析结果要“傻瓜化”
“我们要将挖掘与分析的结果直观呈现,转换为用户真正需要的有价值的洞察力。”微软全球高级副总裁、大中华区董事长兼首席执行官贺乐赋说。
贺乐赋说,微软大数据解决方案通过智能化的、甚至是基于云端的平台和服务去管理和分析数据,从中获取有价值的洞察信息,再以用户最熟悉、最直观的形式表现出来,从而帮助用户做出决策。
【关键词】大数据时代数据分析信息安全防护
1大数据概述
2大数据时代数据分析概述
2.1抽样量化
2.2数据模糊计算
在大数据的影响下,人们接受数据较为繁杂,数据精确性减弱。有数据规模庞大,因此对数据追求精确性的可能性较小,测量数据和调查数据都会因为一些不可控的因素或认为因素致使数据精确性欠缺。大数据时代获得的数据量多,但不精确的数据也在其中,因此对待大数据应该看到其有利方面。数据的不精确也有利于对事物总体的了解,样本的增加使信息更为真实。大数据的不精确是不经意产生的,因此,在需要精确数据的领域还是需要避免不精确性的发生。
2.3利用数据关系
3大数据时代面临的信息安全问题
3.1信息安全风险
由于大数据的特点之一为存储信息较为广泛,对信息安全性有一定的影响。大数据信息海量存储技术的成熟降低了信息存储的成本,因此大数据信息处理量显著增加,处理中心分析信息也变得更加容易。大数据信息中心可以根据终端网络用户的行为信息进行分析,然后将结果提供给信息利用者,分析搜索的商品后向你推荐所感兴趣的商品。在移动互联网,终端用户信息被随时采集和存储,造成了信息安全风险。
3.2个人隐私泄露
3.3安全防护难度
大数据时代由于非结构化的数据类型多、价值密度低,信息量庞大,因此对安全防护技术要求较高,目前我国防护技术还未能够处理大量和多类型的数据,因此数据防护难度系数较高。
4数据时代面临的信息安全问题的应对措施
4.1安全技术研发
目前大数据需要能够处理大量和多类型的数据分析技术,以主动发现大数据中潜藏的威胁,比如利用信息丰富开发认证系统技术或建设数据真实分析系统,将恶意信息和无用信息排除在外。
4.2制定个人隐私泄露保护法律法规
4.3提高民众信息安全认知
5结语
[1]田秀霞,王晓玲,高明等.数据库服务――安全与隐私保护[J].软件学报,2010,21(5):991-1006.
[2]刘小龙,郑滔.一种针对非控制数据攻击的改进防御方法[J].计算机应用研究,2013,30(12):3762-3766.
[3]李峰,李虎成,於益军等.基于并行计算和数据复用的快速静态安全校核技术[J].电力系统自动化,2013,37(14):75-80.
基本的大数据的处理流程可以分成数据采集、数据处理与集成、数据分析和数据解释4个阶段。首先获取数据源的数据,因为在数据源端的数据包含各种各样的结构,需要使用某种方法将其进行预处理,使数据成为某种可以用一种算法分析的统一数据格式,接着需要找到这种数据分析的算法,将预处理过的数据进行算法特定的分析,并将分析的结果用可视化等手段呈现至用户端。
1.1数据采集
大数据的采集是整个流程的基础,随着互联网技术和应用的发展以及各种终端设备的普及,使得数据的生产者范围越来越大,数据的产量也越来越多,数据之间的关联也越来越复杂,这也是大数据中“大”的体现,所以需要提高数据采集速度和精度要求。
1.2数据处理与集成
数据的处理与集成主要是对前一步采集到的大量数据进行适当的预处理,包括格式化、去噪以及进一步集成存储。因为数据采集步骤采集到的数据各种各样,其数据结构也并不统一,不利于之后的数据分析,而且,一些数据属于无效数据,需要去除,否则会影响数据分析的精度和可靠性,所以,需要将数据统一格式并且去除无效数据。通常会设计一些过滤器来完成这一任务。
1.3数据分析
在完成了数据的采集和处理后,需要对数据进行分析,因为在进行数据分析后才能体现所有大数据的重要价值。数据分析的对象是上一步数据的处理与集成后的统一格式数据,需要根据所需数据的应用需求和价值体现方向对这些原始样本数据进一步地处理和分析。现有的数据分析通常指采用数据仓库和数据挖掘工具对集中存储的数据进行分析,数据分析服务与传统数据分析的差别在于其面向的对象不是数据,而是数据服务。
1.4数据解释
数据解释是对大数据分析结果的解释与展现,在数据处理流程中,数据结果的解释步骤是大数据分析的用户直接面对成果的步骤,传统的数据显示方式是用文本形式体现的,但是,随着数据量的加大,其分析结果也更复杂,传统的数据显示方法已经不足以满足数据分析结果输出的需求,因此,数据分析企业会引入“数据可视化技术”作为数据解释方式。通过可视化结果分析,可以形象地向用户展示数据分析结果。
2云计算与大数据分析的关系
3基于云计算环境的Hadoop
为了给大数据处理分析提供一个性能更高、可靠性更好的平台,研究者基于MapReduce开发了一个基于云计算环境的开源平台Hadoop。Hadoop是一个以MapReduce算法为分布式计算框架,包括分布式文件系统(HDFS)、分布式数据库(Hbase、Cassandra)等功能模块在内的完整生态系统,已经成为当前最流行的大数据处理平台,并被广泛认可和开发应用。基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个节点组成的大规模计算机集群上。
4实例分析
本节以电信运营商为例,说明在云计算环境中基于Hadoop的大数据分析给大数据用户带来的价值。当前传统语音和短信业务量下滑,智能终端快速增长,移动互联网业务发展迅速,大数据分析可以为运营商带来新的机会,帮助运营商更好地转型。本文数据分析样本来自于某运营商的个人语音和数据业务清单,通过Hadoop2.6.0在Ubuntu12.04系统中模拟了一个大数据分析平台来处理获得的样本。希望通过对样本数据的分析与挖掘,掌握样本本身的一些信息。以上分析只是一些很基本的简单分析,实际上样本数据中所蕴含的价值要远远大于本文体现的。以上举例意在说明基于云计算的大数据分析可以在数据分析上体现出良好的性能,为企业带来更丰富更有效率的信息提取、分类,并从中获益。
5结束语
其实,社交大数据分析不仅体现在体育方面。在很多传统行业中,社交大数据分析已经得到了广泛的应用,并产生了全新的商业价值。
客户细分和精准营销
这也是目前社交大数据分析应用最为广泛的场景之一。通过社交大数据分析,企业可以在海量的社交媒体数据中,准确发现客户或潜在客户,并通过对其社交网络语言以及行为的大数据分析,清晰掌握不同客户的特点和潜在需求。“不仅能够了解客户的性别、年龄、收入,而且连性格特点、行为习惯、潜在购买需求都可以被准确勾画出来,基于此,企业可以制定更加精准的营销策略。”IBM大中华区全球咨询服务部高级经理郭树勇说道。
实现精准的客户化产品设计
打造创新商业模式
社交大数据分析可以有效地捕捉、筛选、挖掘客户关心的热点话题,更好地帮助企业决策者明确客户行为方式,并且发现潜在的商业机遇,从而准确地抓住市场先机,来建立以客户体验为中心的商业运作模式,以便为企业树立独特的行业竞争优势,进而改变现有的商业格局。