对于大数据的理解胡立峰|数据挖掘的方法和挑战_在线学习

主要完成对已接收数据的辨析、抽取、清洗等操作。

(1)抽取：因获取的数据可能具有多种结构和类型，数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到快速分析处理的目的。

(2)清洗：对于大数据，并不全是有价值的，有些数据并不是我们所关心的内容，而另一些数据则是完全错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。

大数据带来的数学问题

在数学上来看，计算机中存在不断变大的数据集，不存在绝对的大数据，计算机中的所有数据集都是有限集合。

大数据的特征

目前大数据的外延

大数据规模大小是一个不断演化的指标：

当前任务处理的单一的数据集,从数十TB到十几PB级的数据规模(TBPBEBZB)

地震数据预测要求在几分钟内才有效、气象数据应该在小时级别、失联飞机数据处理要在7天之内、数据挖掘一般要求在12小时内

大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年前的理论科学和数十年前的计算科学之后，当今的数据爆炸孕育了数据密集型科学，将理论、实验和计算仿真等范式统一起来。大数据已被誉为“非竞争性”生产要素。大数据具有“取之不尽，用之不竭”的特性，在不断的再利用、重组和扩展中持续释放其潜在价值，在广泛的公开、共享中不断创造着新的财富。根源在于，大数据的价值在于预测未知领域、非特定因素的未来趋势，在于破解长期的、普遍的社会难题。而目前的大数据技术和应用，依然局限于历史和实时数据的关联分析，局限于满足短线的、特定的市场需求。解决悖论的过程，恰恰是理论和方法应运而生的过程。而人们试图解决悖论的努力，正好是大数据落地生根的推动力。

方法论缺位

自2008年《自然》杂志推出“大数据”专刊以来，大数据概念就从学术大讨论，转向了企业的数字化转型，进而上升到“开放政府数据”的战略布局。然而，单纯的数量上的规模庞大，并不能轻易地将大数据与以往的“海量数据”、“超大规模数据”等区别开，因为三者均没有设置数量级等门槛。

方法论缺位是最大的障碍。大数据发展的核心动力源于人们测量、记录和分析世界的渴望，满足这些渴望需要数据、技术和思维三大要素。在计算技术、通信技术日益成熟的今天，在廉价的、便捷的数字化存储普及的当下，数据无处不在，技术正以标准化、商品化的方式提供，事实上思维和方法论才是决定大数据成败的关键，但目前来看，跨越学术与产业、技术与应用之间鸿沟的方法论依然不完善。

在社会难题中淘金

正如数学史上三次危机分别促成公理几何的诞生、集合论的创立和现代数据的发展一样，悖论是理论、技术和应用进步的巨大推动力。大数据悖论的解决，也将推动大数据应用的普及和社会价值的释放。经过新闻媒体和学术会议的大肆宣传之后，大数据技术趋势一下子跌到谷底，许多数据创业公司变得岌岌可危……根据这条著名的Gartner技术成熟度曲线，大数据已经走过了萌芽期和泡沫化的炒作期，并将在未来3~5年内步入低谷期。

市场中的鸿沟

大数据营销模型将经历创新者、早期采用者、早期大众、后期大众和落后者等5个阶段。这5个阶段之间存在着4条裂缝，其中最大、最危险的裂缝存在于早期市场与主流市场之间，我们称之为“鸿沟”。

大数据技术和应用获得创新者的追捧是显而易见的，获得早期市场的拥护也是轻而易举的。但是，不因“时髦”而加入，不因“过时”而退出，才能成为大数据主流市场的掘金者。遗憾的是，不少企业或许会成为“鸿沟中的牺牲者”，而无缘迎接大数据真正应用市场的到来。

规划整体产品

现代营销奠基人之——西奥多·莱维特给出了“整体产品”的概念。根据这一概念，大数据产品应该包括作为“核心吸引物”的一般产品、满足初级心理需求的期望产品和实现更高阶参与以及自我实现的延伸产品和潜在产品4个部分。

现有的数据中心技术很难满足大数据的需求，需要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长，因此设计最合理的分层存储架构已成为IT系统的关键。数据的移动已成为IT系统最大的开销，目前传送大数据最高效也是最实用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。在大数据时代，IT系统需要从数据围着处理器转改变为处理能力围着数据转，将计算推送给数据，而不是将数据推送给计算。应对处理大数据的各种技术挑战中，以下几个问题值得重视：

1、大数据对科学规范的挑战

大数据带来了新的科研范式

大数据如何应用于开放的研究

大数据基于对海量数据的分析产生价值，那么如何获得海量数据来让大数据真正落地呢？这其中最不可或缺的一个环节就是数据开放。现在推进数据开放更为重要的是通过数据的共享来产生更多的价值。数据开放能够提高社会运行效率，积极整合各方公开的数据，建立基于大数据的城市规划来缓解交通和社会治安问题。数据开放能够激发巨大的商业价值，数据开放是面向社会大众的开放，任何人只要有能力都可以用它来创造新的商机。

重现大数据研究结果

我们以一个实际的案例来看一下样本量不断增大之后，会出现的问题：

上表是关于某年网络游戏历程扩散的回归分析，当样本量是5241个的时候，你会发现用一个简单的线性回归拟合这个数据，年龄、文化程度、收入这三个变量显著，当我们把样本量增加到10482个的时候，发现独生子女和女性开始显著，增加到20964个的时候，体制外这个变量也开始显著，当样本增加到33万的时候，所有变量都具有显著性，这意味着世间万物都是有联系的。样本大到一定程度的时候，很多结果自然就会变得显著，会无法进行推论，或者得出虚假的统计学关系。此外，断裂数据、缺失数据（下文将会进行分析）的存在将会使这种虚假关系随着数据量的增长而增长，我们将很难再接触到真相。

事实上，真实的规律是这样的：

对一个社会现象进行客观深刻准确的分析，对事物的理解需要数据，但更需要分析思维，在大数据时代，理论并非不重要，而是变得更加重要。我们所指的理论也并非僵化一成不变的固守旧有理论，而是在处理问题的过程中意识到海量数据所带来的复杂性，坚持分析方法和理论的不断创新。

大数据研究结果可信与否

不可否认，大数据标志着人类在寻求量化和认识世界的道路上前进了一步。这是计算技术的进步，是人类决策工具的进步。改编自迈克尔·刘易斯的《魔球：逆境中制胜的智慧》的影片《点球成金》，讲述了一个真实的故事，介绍了奥克兰运动家棒球队总经理比利·比恩的经营哲学，描述了他抛弃几百年延续的选择球员的惯常做法，采用了一种依靠电脑程序和数学模型分析比赛数据来选择球员的方法。比利·比恩的成功称得上是对球探们经验决策的颠覆，是让数据说话的成功范例。正如维克托·迈尔-舍恩伯格将大数据视为人工智能的一部分，视为机器学习的一种应用一样，数据决策和数据旁证的博弈其实是人和机器的博弈。即便是有一将难求的数据科学家的协助，大数据决策依然是辅助系统。

在这一阶段，云计算是基础设施，大数据是服务工具，两者将满足特定语境下的、短线的市场需求，更重要的是它们还能发挥其在非特定语境下破解社会难题的价值。换言之，大数据将演绎“信息转化为数据，数据集聚成知识，知识涌现出智慧”的进程。

2、大数据带来的社会问题

在基于社交媒体和数字化记忆的大数据时代，人们不仅担心无处不在的“第三只眼”，而且担心隐私被二次利用。因为，亚马逊监视着我们的购物习惯，谷歌监视着我们的网页浏览习惯，微博似乎什么都知道，包括我们的社交关系网……可怕的不是这些隐私数据，而是大数据的全数据分析、模糊计算和重关联却不求因果的特性，让隐私数据与社交网络等关联起来。按照维克托·迈尔-舍恩伯格的说法，危险不再是隐私的泄漏，而是被预知的可能性——这些能够预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险，无法贷款，甚至实施犯罪前就被预先逮捕。

3、大数据带来的技术挑战

抽样分析+全数据验证的分析思路

增加样本容易，降低算法复杂度难。维克托·迈尔·舍恩伯格在介绍大数据时代的数据分析思维转变时提到过三个观点，其中之一是：分析所有的数据，而不再仅仅依靠一小部分数据。全数据一时甚嚣尘上，企业、研究者以为大数据就是全数据，以至于再谈抽样都似乎带有保守主义色彩，这种看法无疑是对大数据和抽样二者都存在偏见和不足，如果认为大数据就是收集所有样本的信息，让数据自己说话，那么在方法论上就是狭隘的。

《文学文摘》依靠纸媒时代巨大的发行量获得240万民众的数据，而盖洛普仅在严格抽样基础上研究了5000人，是“小数据”的复杂算法超过“大数据”的简单算法的真实案例。

没有抽样的拟合，直接面对大数据，将使我们失去对人的了解，对真实规律的追寻，毕竟不是所有的社会事实都一场流感一样易于预测，况且即便是谷歌被广为赞誉的流感预测案例也被认为存在问题：在与传统的流感监测数据比较之后，根据互联网流感搜索实时更新的Google流感趋势被发现明显高估了流感峰值水平。科学家指出基于搜索有太多的噪音影响了它的精确度这表明基于社交网络数据挖掘的流感跟踪将不是替代而只能补充传统的流行病监测网络。他们正在开发噪音较少的替代跟踪方法，例如基于Twitter的流感跟踪只包含真正病人的帖子，而不是转载的流感新闻报道。

分析理解大数据——盲人摸象

数据是企业最重要的资产，而且随着数据产业的发展，将会变得更有价值。但封闭的数据环境会阻碍数据价值的实现，对企业应用和研究发现来讲都是如此，因此我们需要合理的机制在保护数据安全的情况下开放数据，使数据得到充分利用。有效的解决办法之一是公正的第三方数据分析公司、研究机构作为中间商收集数据、分析数据，在数据层面打破现实世界的界限，进行多家公司的数据共享而不是一家公司盲人摸象，这才能实现真正意义上的大数据，赋予数据更广阔全面的分析空间，才会对产业结构和数据分析本身产生思维转变和有意义的变革。

4、大数据管理的挑战

每一种非结构化数据均可被视为大数据。这包括在社交网站上的数据、在线金融交易数据、公司记录、气象监测数据、卫星数据和其他监控、研究和开发数据。大数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统（DFS）、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术；突破分布式非关系型大数据管理与处理技术，异构数据的数据融合技术，数据组织技术，研究大数据建模技术；突破大数据索引技术；突破大数据移动、备份、复制等技术；开发大数据可视化技术。

通过隔离管理大数据存储

如果有多个存储箱，那么将数据库、线交易处理(OLTP)和微软Exchange应用到特定的存储系统是个不错的选择。其它存储系统则用于大数据应用如门户网站，在线流媒体应用等。

如果没有存储系统，将特定的前端存储端口到数据库，OLTP等等;致力于大数据应用到其他端口。背后的基本原理是使用专用端口，而大数据流量是以千字节或兆字节衡量，OLTP应用流量是以每秒的输入/输出操作(IOPS)衡量，因为数据块的大小是比大数据更大而比OLTP应用程序更小。OLTP应用程序是CPU密集型的，而大数据应用程序更多的使用前端端口。因此，更多的端口可以专注于大数据应用。

专业的大数据存储管理

兼容数据管理的存储系统。如EMCIsilon的集群存储系统对于大数据存储管理是一个更好的选择，因为在一个单一的文件系统中大数据能增长到多字节的数据。

大数据分析

除了存储，大数据管理的另一项大的挑战是数据分析。一般的数据分析应用程序无法很好的处理大数据，毕竟涉及到大量的数据。采用专门针对大数据的管理和分析的工具，这些应用程序运行在集群存储系统上，缓解大数据的管理。管理大数据的另一个需要重点考虑的是未来的数据增长。你的大数据存储管理系统应该是可扩展的，足以满足未来的存储需求。

大数据的存储管理和云计算

目前正在寻找云计算服务来进行存储和管理海量数据。而选择云服务来大型数据存储管理，可以确保数据的所有权。有权选择将数据移入或移出云服务，而不被供应商锁定。

面临的挑战

(1)大数据集的挑战

如下图为数据到知识的演化过程示意图：

(2)数据复杂性挑战

挖掘将会很大程度地提高数据分析的性能和灵活性。源于数据仓库的数据立方体计算技术和OLAP(在线分析处理)技术极大地提高了大型数据库多维分析的性能。除了传统的数据立方体技术，近期的研究致力于构建回归立方体、预测立方体以及其他的面向统计的复杂数据立方体。这样的多维或高维分析工具对分层多维数据的有效分析提供了保证。

(3)数据动态增长的挑战

研究内容

(1)研究分布式并行计算环境下的大数据大数据分析的基本策略

I.与数据分布相联系的分治策略

II.与算法机理相结合的并行策略

(2)研究复杂度降精度可控的新的大数据分析算法

I.大数据分类、聚类、关联分析、异常发现等

(3)大数据分析平台研发

分类和预测是两种分析数据的方法，它们可用于抽取能够描述重要数据集合或预测未来数据趋势的模型。分类方法用于预测数据对象的离散类别;而预测则用于预测数据对象的连续取值。许多分类和预测方法已被机器学习、专家系统、统计学和神经生物学等方丽的研究者提出，其中的大部分算法属于驻留内存算法，通常假定的数据量很小，最初的数据挖掘方法大多都是在这些方法及基于内存基础上所构造的算法。目前数据挖掘方法都要求，目前的数据挖掘研究已经在这些工作基础之上得到了很大的改进，开发了具有基于外存以处理大规模数据集合能力的分类和预测技术，这些技术结合了并行和分布处理的思想。

1、数据变小——分类算法

空间覆盖算法－基于球邻域的空间划分

空间覆盖算法－仿生模式识别

空间覆盖算法－视觉分类方法

VCA把数据看作一幅图像，核心是基于尺度空间理论，选择合适的尺度使得同类样本区域融合在一起。

分类超曲面算法HSC

设训练样本所在空间为一封闭维方体区域，将此区域按照一定细分规则划分成若干小区域，使每个小区域只包含同一类样本点，并用样本点的类别标定该区域，合并相邻同类区域边界，获得若干超平面片封闭组成的分类超曲面。输入新样本点，根据分类判别定理判断样本点所在的类别。

特点：

(1)通过特征区域细化直接解决非线性分类问题,不需要考虑使用何种函数，不需要升维变换。

(2)通用可操作的分类超曲面构造法，基于分类超曲面的方法通过区域合并计算获得分类超曲面对空间进行划分

(3)独特、简便、易行的分类判别方法,基于分类超曲面的方法是基于Jordan定理的分类判断算法,使得基于非凸的超曲面的分类判别变得简便、易行。

2、极小覆盖子集

覆盖型分类算法的极小覆盖子集——对特定的训练样本集，若其子样本集训练后得到的分类模型与与原样本集训练后得到的分类模型相同，则称子样本集是原样本集的一个覆盖。在一个样本集的所有覆盖中，包含样本个数最少的覆盖称为样本集的极小覆盖子集。

(1)计算极小覆盖子集的基本步骤:

用一个方形区域覆盖所有样本点;将该区域划分成一系列小区域(单元格)，直到每个小区域内包含的样本点都属于同一类别;将落在同一小区域内的样本点中选择且仅选择一个样本构成极小覆盖子集。

(2)采样受限于极小覆盖子集

全样本空间必然包含极小覆盖子集,任意一个数据集未必包含完整的极小覆盖子集。大数据环境下，极小覆盖子集中的样本更多地包含在大数据中，较多的数据可以战胜较好的算法、再多的数据亦不会超过极小覆盖子集的代表性、再好的提升手段亦不会超过极小覆盖子集确定的精度。

3、回归分析

4、聚类

聚类类似于分类，但与分类的目的不同，是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。

5、关联规则

关联规则是隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段：第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求，各银行在自己的ATM机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。

6、神经网络方法

神经网络作为一种先进的人工智能技术，因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题，它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类：第一类是以用于分类预测和模式识别的前馈式神经网络模型，其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型，以Hopfield的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法，以ART模型为代表。虽然神经网络有多种模型及算法，但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则，而且人们很难理解网络的学习及决策过程。

7、Web数据挖掘

Web数据挖掘是一项综合性技术，指Web从文档结构和使用的集合C中发现隐含的模式P，如果将C看做是输入，P看做是输出，那么Web挖掘过程就可以看做是从输入到输出的一个映射过程。

行业拓展者，打造大数据行业基石

Hadoop等

大数据促进了政府职能变革

重视应用大数据技术，盘活各地云计算中心资产：把原来大规模投资产业园、物联网产业园从政绩工程，改造成智慧工程；在安防领域，应用大数据技术，提高应急处置能力和安全防范能力；在民生领域，应用大数据技术，提升服务能力和运作效率，以及个性化的服务，比如医疗、卫生、教育等部门；解决在金融，电信领域等中数据分析的问题：一直得到得极大的重视，但受困于存储能力和计算能力的限制，只局限在交易数型数据的统计分析。一方面大数据的应用促进了政府职能变革，另一方面政府投入将形成示范效应，大大推动大数据的发展。

打造“智慧城市”

通过收集、处理庞大而复杂的数据信息，从中获得知识和洞见，提升能力，加快科学、工程领域的创新步伐，强化安全意识，转变教育和学习模式。智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效，随着智慧城市的建设，社会将步入“大数据”时代。

THE END

对于大数据的理解胡立峰

运用数据挖掘和机器学习，建立联合作战体系效能评估模型

对于大数据的理解胡立峰

北京生态设计与绿色制造促进会

复杂网络论文15篇

41个项目！2023年度“CCF科技成果奖”公布—新闻—科学网