本文引自:《数据技术基础》(作者:张洁、吕佑龙、张朋、汪俊亮)。
内涵与特征1)大数据的内涵
大数据的定义方法有很多种,如果仔细观察,会发现不同领域专家学者给出了不同的定义。通常所说的“大数据”往往指的是“大数据现象”。
(1)计算机科学与技术:当数据量、数据的复杂程度、数据处理的任务要求等超出了传统数据存储与计算能力时,称之为大数据(现象)。可见,计算机科学与技术中是从存储和计算能力视角理解大数据——大数据不仅是“数据存量”的问题,还与数据增量、复杂度和处理要求(如实时分析)有关。
(2)统计学:当能够收集足够的全部(总体中的绝大部分)个体的数据,且计算能力足够强,可以不用抽样,直接在总体上就可以进行统计分析时,称之为大数据(现象)。可见,统计学主要从所处理的问题和总体的规模之间的相对关系视角理解“大数据”。
(4)社会科学家:当多数人的大部分社会行为可以被记录下来时,称之为大数据(现象)。可见,社会科学家眼里的大数据主要是从“数据规模与价值密度角度”谈的,即数据规模过大导致的价值密度过低。
总之,术语大数据的内涵已超出了数据本身,代表的是数据带来的机遇与挑战,可以总结如下。
(1)机遇:原先无法(或不可能)找到的数据,现在可能找到;原先无法实现的计算目的(如数据的实时分析),现在可以实现。
(2)挑战:原先一直认为正确或最佳的理念、理论、方法、技术和工具越来越凸现出其局限性,在大数据时代需要改变思考模式。
2)大数据的特征
通常,用4V来表示大数据的基本特征。但是,建议读者结合上述对大数据的内涵的讨论,灵活理解大数据的特征。
业务数据化
随着互联网的快速发展,企业逐渐面临越来越多大数据时代的不确定性和挑战,很可能因为成本高居不下而逐渐失去份额,被竞争对手超越并最终出局。企业每天都会产生大量的业务数据,通过实现业务数据化可以帮助企业经营者对尚未掌握的商业机遇进行理性评估判断,实现业务增值,同时帮助企业提升内部运营效率,降低成本。因此业务数据化是未来发展的一大趋势。
1)设计目标和原则
业务数据化的设计目标是要从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人或事物来说有价值、有异议的数据。设计原则包括简约原则、综观原则、解释原则以及智慧原则。
(1)简约原则:简化现有的数据集,使得一种小规模的数据就能够产生同样的分析效果。通过一些数据规约方法获取可靠数据,减少数据集规模,提高数据抽象程度,提升数据挖掘效率,使之在实际工作中,可以根据需要选用合适的处理方法,以达到操作上的简单、简洁、简约和高效。
(2)综观原则:对认知对象进行综合性的观察、分析和探索,以求得解决问题的策略和战略。它坚持整体的具体统一性,凸显认知对象的具体实在性。
(3)解释性原则:针对提取的数据究竟表达什么或意味什么,很大程度上,并不取决于数据信息自身所标明的“客观实在性”,而是取决于认知主体对数据进行解读时的主观评价,以此揭示数据的本质。
2)数据线程
3)业务数据系统
业务数据系统主要包括业务数据集成系统、业务数据管理系统、业务数据分析系统、业务数据可视化系统等多个子系统。
(1)业务数据集成系统:是面向业务的数据集成系统。随着企业信息化建设的发展,企业建立了众多的信息系统,以帮助企业进行内外部业务的管理。但是,企业各系统的数据是分布的、异构的,为了共享这些业务数据,需要一个业务数据集成系统来完成数据的共享与转换。业务数据集成系统通过对具体的数据库业务数据进行访问,实现了基于变量的增量数据的获取和发送,不仅解决了分布式环境下异构数据的集成,还具有良好的扩展性及部署的简单性。
(3)业务数据可视化系统:将数据进行更清晰的展示,能够准确而高效、精简而全面地传递信息和知识。可视化能将不可见的数据现象转化为可见的图形符号,能将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,发现规律和特征,获得更有商业价值的洞见和价值。
4)智能制造业务数据
智能制造业务数据主要包括以下6个方面。
(3)从各类业务应用信息系统中获取数据,如MES系统从PDM系统获取BOM数据,从ERP系统获取订单数据等。
(4)从各类业务运行过程中获取的样本数据集,是指以业务为中心,积累的历史样本数据,可用于智能制造过程中模型的训练。
大数据时代的新理念
大数据时代的到来改变了人们的生活方式、思维模式和研究范式,也带来了很多全新的理念。
(2)数据重要性的新认识——从数据资源到数据资产:在大数据时代,数据不仅是一种资源,而更是一种重要的资产。因此,数据科学应把数据当作一种资产来管理,而不能仅仅当作资源来对待。也就是说,与其他类型的资产相似,数据也具有财务价值,且需要作为独立实体进行组织与管理。
(3)对方法论的新认识——从基于知识解决问题到基于数据解决问题:传统方法论往往是基于知识的,即从大量实践(数据)中总结和提炼出一般性知识(定理、模式、模型、函数等)之后,用知识去解决(或解释)问题。因此,传统的问题解决思路是问题→知识→问题,即根据问题找知识,并用知识解决问题。然而,数据科学中兴起了另一种方法论——问题→数据→问题,即根据问题找数据,并直接用数据(不需要把数据转换成知识的前提下)解决问题。
(5)对计算智能的新认识——从复杂算法到简单算法:“只要拥有足够多的数据,我们可以变得更聪明”是大数据时代的一个新认识。因此,在大数据时代,原本复杂的智能问题变成简单的数据问题——只要对大数据的进行简单查询就可以达到“基于复杂算法的智能计算的效果”。
(6)对数据管理重点的新认识——从业务数据化到数据业务化:在大数据时代,企业需要重视一个新的课题——数据业务化,即如何基于数据动态地定义、优化和重组业务及其流程,进而提升业务的敏捷性,降低风险和成本。
(7)对决策方式的新认识——从目标驱动型决策到数据驱动型决策:传统科学思维中,决策制定往往是目标或模型驱动的——根据目标(或模型)进行决策。在大数据时代出现了另一种思维模式,即数据驱动型决策,数据成为决策制定的主要触发条件和重要依据。
(8)对产业竞合关系的新认识——从以战略为中心竞合关系到以数据为中心竞合关系:在大数据时代,企业之间的竞合关系发生了变化,原本相互激烈竞争,甚至不愿合作的企业,不得不开始合作,形成新的业态和产业链。
(9)对数据复杂性的新认识——从不接受到接受数据的复杂性:在传统科学看来,数据需要彻底净化和集成,计算目的是需要找出精确答案,其背后的哲学是“不接受数据的复杂性”。然而,大数据中更加强调的是数据的动态性、异构性和跨域等复杂性——弹性计算、鲁棒性、虚拟化和快速响应,开始把复杂性当作数据的一个固有特征来对待,组织数据生态系统的管理目标转向将组织处于混沌边缘状态。
(10)对数据处理模式的新认识——从小众参与到大众协同:传统科学中,数据的分析和挖掘都是基于专家经验,但在大数据时代,基于专家经验的创新工作成本和风险越来越大,而基于专家-业余相结合(Pro-Am)的大规模协作日益受到重视,正成为解决数据规模与形式化之间矛盾的重要手段。
大数据时代的新术语
大数据时代的到来,为业务活动提出了一些新的任务和挑战,同时出现了很多全新术语。
(1)数据化(datafication):捕获人们的生活与业务活动,并将其转换为数据的过程。
(4)数据打磨(datawrangling):采用全手工或半自动化的方式,通过多次反复调整与优化过程,即将原始数据转换为一次数据(或二次数据)的过程。其特殊性表现在不是完全自动化方式实现,一般用手工或半自动化工具;不是一次即可完成,需要多次反复调整与优化。
(5)数据分析式思维模式(data-analyticthinking):一种从数据视角分析问题,并基于数据来解决问题的思维模式。数据分析思维模式与传统思维模式不同。前者,主要从数据入手,最终改变业务;后者从业务或决策等要素入手,最终改变数据。从分析对象和目的看,数据分析可以分为3个不同层次,如图2所示。
图2数据分析的层次
(6)描述性分析(descriptiveanalysis):采用数据统计中的描述统计量、数据可视化等方法描述数据的基本特征,如总和、均值、标准差等。描述性分析可以实现从数据到信息的转化。
(8)规范性分析(normativeanalysis):不仅要利用当前和过去的数据,而且还会综合考虑期望结果、所处环境、资源条件等更多影响因素,在对比分析所有可能方案的基础上,提出可以直接用于决策的建议或方案。规范性分析可实现从知识到智慧的转变。
(9)数据洞见(datainsights):采用机器学习、数据统计和数据可视化等方法从海量数据中找到人们并未发现的且有价值的信息的能力。数据科学强调的是数据洞见——发现数据背后的信息、知识和智慧以及找到“被淹没在海量数据中的未知数据”。与数据挖掘不同的是,数据科学项目的成果可以直接用于决策支持。数据洞见力的高低主要取决于主体的数据意识、经验积累和分析处理能力。
(10)数据驱动(data-driven):是相对于决策驱动、目标驱动、业务驱动和模型驱动的一种提法。数据驱动主要以数据为触发器(出发点)、视角和依据,进行观测、控制、调整和整合其他要素——决策、目标、业务和模型等,如图3所示。数据驱动是大数据时代的一种重要思维模式,也是业务数据化之后实现数据业务化的关键所在。
图3常用的驱动方式
(11)数据密集型(data-intensive)应用:是相对于计算密集型应用、I/O密集型应用的一种提法,如图4所示。也就是说,数据密集型应用中数据成为应用系统研发的主要焦点和挑战。通常,数据密集型应用的计算比较容易,但数据具有显著的复杂性(异构、动态、跨域和海量等)和海量性。例如,当对PB级复杂性数据进行简单查询时,计算不再是最主要的挑战,而最主要挑战来自于数据本身的复杂性。
图4计算密集型应用与数据密集型应用的区别
大数据生命周期管理
在大数据平台下,预处理的数据量非常大,而处理后的有效数据量往往比较小,因此,数据的生命周期管理显得非常重要。数据生命周期管理(datalife-cyclemanagement,DLM)是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从创建和初始存储,到它过时被删除。(图5)
图5大数据生命周期管理概述图
编辑:黄飞
原文标题:数据的基本概念!
长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)