用传统算法和数据库系统可以处理的海量数据不算“大数据”。大数据=“海量数据”+“复杂类型的数据”
大数据的特性包括4个“V”:Volume,Variety,Velocity,Value数据量大:目前一般认为PB级以上数据看成是大数据;
种类多:包括文档、视频、图片、音频、数据库数据等;速度快:数据生产速度很快,要求数据处理和I/O速度很快;价值大:对国民经济和社会发展有重大影响。
1.2目前大数据的规模
类型的增加导致数据空间维度增加,极大地增加了大数据的复杂度。
1.3大数据公司的现状:
Google公司通过大规模集群和MapReduce软件,每个月处理的数据量超过400PB。
百度的数据量:数百PB,每天大约要处理几十PB数据,大多要实时处理,如微博、团购、秒杀。
Facebook:注册用户超过8.5亿,每月上传10亿照片,每天生成300TB日志数据
淘宝网:有3.7亿会员,在线商品8.8亿,每天交易数千万,产生约20TB数据。
Yahoo!的数据量:Hadoop云计算平台有34个集群,超过3万台机器,总存储容量超过100PB。
1.4网络大数据的特点
(1)多源异构:描述同一主题的数据由不同的用户、不同的网站产
生。网络数据有多种不同的呈现形式,如音视频、图片、文本等,导致网络数据格式上的异构性。
(2)交互性:不同于测量和传感获取的大规模科学数据,微博等社
交网络兴起导至大量网络数据具有很强的交互性。
(3)时效性:在网络平台上,每时每刻都有大量新的网络数据发布,
(4)社会性:网络上用户根据自己的需要和喜好发布、回复或转发
信息,因而网络数据成了对社会状态的直接反映。
(6)高噪声:网络数据来自于众多不同的网络用户,具有很高的噪
声。
2、国家重大战略需求
数据已成为与自然资源、人力资源一样重要的战略资源,隐含巨大的价值,已引起科技界和和企业界的高度重视。如果我们能够有效地组织和使用大数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用,孕育着前所未有的机遇。O'Reilly公司断言:“数据是下一个‘IntelInside’,未来属于将数据转换成产品的公司和人们。”
实验发现、理论预测和计算机模拟是目前广泛采用三大科研范式。现在,数据密集型研究已成为科研的第四范式。不论是基因组学、蛋白组学研究,天体物理研究还是脑科学研究都是以数据为中心的研究。用电子显微镜重建大脑中所有的突触网络,1mm大脑的图像数据就超过1PB。取之不尽的实验数据是科学新发现的源泉。
大数据分析技术不仅是促进基础科学发展的强大杠杆,也是许多行业技术进步和企业发展的推动力。大数据的真正意义并不在于大带宽和大存储,而在于对容量大且种类繁多的数据进行分析并从中萃取大价值。采用大数据处理方法,生物制药、新材料研制生产的流程会发生革命性的变化,可以通过数据处理能力极高的计算机并行处理,同时进行大批量的仿真比较和筛选,大大提高科研和生产效率。数据已成为矿物和化学元素一样的原始材料,未来可能形成“数据探矿”、“数据化学”等新学科和新工艺模式。大数据处理的兴起也将改变云计算的发展方向,云计算正在进入以AaaS(分析即服务)为主要标志的Cloud2.0时代。
现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT架构进行革命性的重构。存储能力的增长远远赶不上数据的增长,设计最合理的分层存储架构已成为信息系统的关键,数据的移动已成为3
信息系统最大的开销。信息系统需要从数据围着处理器转改变为处理能力围着数据转,将计算用于数据,而不是将数据用于计算。大数据也导致高可扩展性成为信息系统最本质的需求,并发执行(同时执行的线程)的规模要从现在的千万量级提高10亿级以上。
3、国内外研究动向与基础
3.1科研“第四范式”
60年前,数字计算机使得信息可读;20年前,Internet使得信息可获得;10年前,搜索引擎爬虫将互联网变成一个数据库;现在,Google及类似公司处理海量语料库如同一个人类社会实验室。数据量的指数级增长不但改变了人们的生活方式、企业的运营模式,而且改变了科研范式。
2007年,已故的图灵奖得主吉姆·格雷(JimGray)在他最后一次演讲中描绘了数据密集型科研“第四范式”(thefourthparadigm)的愿景。2008年9月《Nature》杂志出版了一期专刊—“BigData”,2011年2月,《Science》期刊联合其姊妹刊推出了一期关于数据处理的专刊—“Dealingwithdata”,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据所带来的技术挑战。
美国Wired杂志主编ChrisAnderson2008年曾发出“理论的终结(TheEndofTheory)”的惊人断言:“TheDataDelugeMakestheScientificMethodObsolete”。他指出获得海量数据和处理这些数据的统计工具的可能性提供了理解世界的一条完整的新途径。Petabytes让我们说:相互关系已经足够(Correlationisenough)。我们可以停止寻找模型,相互关系取代了因果关系,没有具有一致性的模型、统一的理论和任何机械式的说明,科学也可以进步。
ChrisAnderson的极端看法并没有得到科学界的普遍认同,数据量的增加能否引起科研方法本质性的改变仍然是一个值得探讨的问题。对研究领域的深刻理解(如空气动力学方程用于风洞实验)和数据量的积累应该是一个迭代累进的过程。没有科学假设和模型就能发现新知识究竟有多大的普适性也需要实践来检验,我们需要思考:这类问题有多大的普遍性?这种优势是数据量特别大带来的还是问题本身有这种特性?只知道相互关系不知道因果关系会不会“知其然不知其所以然”。所谓从数据中获取知识要不要人的参与,人在机器自动学习和运行中应该扮演什么角色?有些领域可能先用第四范式,等领域知识逐步丰富了在过渡到第三范式。
3.221世纪的网络理论相当于20世纪的量子力学
还原论解构复杂系统,带给我们单个节点和链接的理论。网络理
论则反其道而行之,重新组装这些节点和链接,帮助我们重新看到整体。很可能数据的共性存在于数据背后的“网络”之中。网络有不少参数和性质,如聚集系数、核数等,这些性质和参数也许能刻画大数据背后的网络的共性。
3.3美国政府启动“BigData”计划
3.3.1国防部高级研究计划局(DARPA)项目举例:
Mind‘sEye项目旨在建立一个更完整的视觉智能。
3.3.2能源部(DOE)项目举例:
从庞大的科学数据集中提取信息,发现其主要特征,并理解其间的关系。研究领域包括机器学习,数据流的实时分析,非线性随机的数据缩减技术和可扩展的统计分析技术。
生物和环境研究计划,大气辐射测量气候研究设施
系统生物学知识库对微生物,植物和环境条件下的生物群落功能的数据驱动的预测。
3.3.3国家人文基金会(NEH)项目举例:
分析大数据的变化对人文社会科学的影响,如数字化的书籍和报纸数据库,从网络搜索,传感器和手机记录交易数据。
3.3.4美国国家科学基金会(NSF)项目举例:
推进大数据科学与工程的核心技术,旨在促进从大量、多样、分散、异构的数据集中提取有用信息的核心技术。
深入整合算法,机器和人,以解决大数据的研究挑战。
开发一种以统一的理论框架为原则的统计方法,可伸缩的网络模型算法,以区别适合随机性网络的方法
形成一个独特的学科包括数学、统计基础和计算机算法。开放科学网格(OSG),使得全世界超过8000名的科学家合作进行发现,包括寻找希格斯玻色子(“上帝粒子”,宇宙中所有物质的质量之源)。
从以上项目简介中可以看出,美国政府的大数据计划目前最重视的是数据工程而不是数据科学,主要考虑大数据分析算法和系统的效率。但NSF的项目包含“统一的理论框架”和“形成一个独特的学科”等的科学目标。
4、重大科学问题
在讨论大数据带来的科学挑战问题之前,需要先阐述几句大数据面临的技术挑战问题,因为对大数据而言,技术走在科学前面。目前的局面是各个学科的科学家都以自己为主处理本领域的海量数据,信息领域的科学家只能起到助手的作用。也就是说,各领域的科学问题还掌握在各学科的科学家手里,计算机科学家并没有提炼出多少共性的大数据科学问题。技术上解决不了的问题越来越多,就会逐步凝练出共性的科学挑战问题。在条件还不成熟的时候,计算所科学家应虚心地甘当一段时期的“助手”。在网络大数据方面可能计算机学者的主动性会较早发挥出来。
4.1、需要重视的一些技术挑战问题
4.1.1高扩展性的数据分析技术
传统的关系数据库无法胜任大数据分析的任务,因为并行关系数据库系统的出发点是追求高度的数据一致性和容错性。根据CAP理论(Consistency,Availability,tolerancetonetworkPartitions),在分布式系统中,一致性、可用性、分区容错性三者不可兼得,因而并行关系数据库必然无法获得较强的扩展性和良好的系统可用性。系统的高扩展性是大数据分析最重要的需求,必须寻找高扩展性的数据分析技术。
4.1.2新的数据表示方法
目前表示数据的方法,不一定能直观地展现出数据本身的意义。要想有效利用数据并挖掘其中的知识,必须找到最合适的数据表示方法。我们在一种不合适的数据表示中寻找大数据的固定模式、因果关系和关联时,可能已落入固有的偏见之中。
数据表示方法和最初的数据填写者有着密切关系。如果原始数据有必要的标识,就会大大减轻事后数据识别和分类的困难。但为标识数据给用户增添麻烦往往得不到用户认可。研究既有效又简易的数据表示方法是处理网络大数据必须解决的技术难题之一。
4.1.3数据融合
大数据的挑战之一是对数据的整合,如果不整合则发挥不出大数据的大价值。网上数据尤其是流媒体数据的泛滥与数据格式太多有关。每个大企业都有自己不同数据格式,用户为了摆脱大企业的“绑定”,需要不断地做格式转换。格式繁多也给海量数据分析增加了许多工作量。
大数据面临的一个重要问题是个人、企业和跨部门的政府机构的各种数据和信息能否方便的融合。如同人类有许多种自然语言一样,
作为Cyberspace中唯一客观存在的数据难免有多种格式。但为了扫清网络大数据处理的障碍,应研究推广不与平台绑定的数据格式。
图像、语音、文字都有不同的数据格式,在大数据存储和处理中这三者的融合已成为一种趋势,有必要研究囊括各种数据的统一格式,简化大数据处理。大数据已成为联系人类社会、物理世界和赛博空间(Cyberspace)的纽带,需要构建融合人、机、物三元世界的统一的信息系统。
4.2大数据提出的科学挑战问题
4.2.1数据科学的重点是研究数据背后的关系网络
大数据科学面临的首要问题是“研究对象是什么”?许多学者说:计算机科学的关于算法的科学,数据科学是关于数据的科学。寻找新算法是有目标的研究,但当前数据科学的目标还不很明确。人们常比喻数据科学是“大海捞针”,“大海捞针”的前提是先知道有一枚“针”在海里,而海量数据的挖掘往往不知道有没有“针”。因此有学者比喻大数据研究是“大海捕鱼”,捕到什么鱼算什么鱼。
观察各种复杂系统得到的大数据,直接反映的往往是个体和个别链接的特性,反映相互关系的网络的整体特征隐藏在大数据中,国外不少学者认为数据科学的主要任务就是搞清楚数据背后的“关系网络”。因此大数据面临的科学问题本质上可能就是网络科学问题,复杂网络分析是数据科学的重要基石。
目前,研究Internet网络数据的学者以复杂网络上的数据(信息)传播机理、搜索、聚类、同步和控制作为主要研究方向。最新的研究成果表明,随机的scale-free网络不是一般的“小世界”,而是“超小世界(ultrasmallworld),规模为N的网络的最短路径的平均长度是lnlnN(不是一般小世界的lnN)。网络数据科学应发现网络数据与信息产生、传播、影响背后的社会学、心理学、经济学的机理以及网络信息涌现的内在机制,同时利用这些机理研究互联网对政治、经济、文化、教育、科研的影响。
过去几个世纪主宰科学研究的方法一直是“还原论”
(Reductionism),将世界万物不断分解到最小的单元。作为一种科研范式已经快走到尽头。对单个人、单个基因、单个原子等了解越多,我们对整个社会、整个生命系统、物质系统的理解并没有增加很多,有时可能离理解系统的真谛更远。基于大数据对复杂社会系统进行整体性的研究,也许将为研究复杂系统提供新的途径。从这种意义上看,“网络数据科学”是从整体上研究复杂系统(社会)的一门科学。云计算、物联网等信息技术的发展使得物理世界、信息世界和人类社会已融合成一个三元世界(theternaryhuman-cyber-physicaluniverse),大数据是形成统一的三元世界的纽带。数据背后是网络,网络背后是人。研究数据网络实际上是研究人组成的社会网络。
4.2.2数据界(DataNature)的共性科学问题是什么?
数据科学试图把数据当成一个“自然体”来研究,即所谓“数据界(datanature)”,也就是尝试把计算机科学划归为自然科学。但脱离各个领域的“物理世界”,作为客观事物间接存在形式的“数据界”究竟有什么共性问题还不清楚。物理世界在Cyberspace中有其数据映像,研究数据界的规律其实就是研究物理世界的规律(还需要在物理世界中测试验证),除去各个领域(天文、物理、生物、社会等)的规律,还有“数据界”共同的规律吗?数据库理论是一个很好的例子,在经历了层次数据库、网状数据库多年实践以后,Codd发现了数据库应用的共性规律,建立了有坚实理论基础的关系模型。在这之前人们也一直在问今天同样的问题。现在我要做的事就是提出像关系数据库这样的理论来指导海量非结构化Web数据的处理。
4.2.3大数据研究作为一种研究方法的特点
目前,大数据研究主要是作为一种研究方法或一种发现新知识的工具,不是把数据本身当成研究目标。作为一种研究方法,它与数据
挖掘、统计分析、搜索等人工智能方法有密切联系。
传统AI(如机器学习)先通过在较小的数据样本集学习,验证分类、判定等“假设”和“模型”的适合性,再应用推广(Generalization)到更大的数据集。一般NlogN、N级的学习算法复杂度可以接受。面对P级以上的海量数据,NlogN、N级的学习算法难以接受,处理大数据需要更简单的人工智能算法和新的问题求解方法。
大数据研究不应该只是上述几种方法的集成,应该有不同于统计学和人工智能的本质内涵。大数据研究是一种交叉科学研究,如何体现其交叉学科的特点需要认真思考。
4.2.4如何变“大数据”为“小数据”
获取大数据本身不是我们的目的,能用“小数据”解决的问题绝不要故意增大数据量。当年开普勒发现行星三大定律,牛顿发现力学22
三大定律现在看来都是基于小数据。我们也应从通过“小数据”获取知识的案例中得到启发,比如人脑就是小样本学习的典型。
2-3岁的小孩看少量图片就能正确区分马与狗、汽车与火车,似乎人类具有与生俱来的知识抽象能力。我们不能迷信大数据,从少量数据中如何高效抽取概念和知识是值得深入研究的方向。至少应明白解决某类问题,多大的数据量是合适的,不要盲目追求超额的数据。
数据无处不在,但许多数据是重复的或者没有价值,未来的任务主要不是获取越来来越多的数据,而是数据的去冗分类、去粗取精,从数据中挖掘知识。几百年来,科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”,现在要做的事情是“从厚到薄”,要把大数据变成小数据。
数据的分类可能是大数据研究的基本科学问题,如同分类在生物学的地位一样,各种各样的大数据如何按不同性质分类需要认真研究,分类清楚了,数据标识问题也就解决了,许多数据分析问题也会迎刃而解。
5、可能的原始创新
现在来预测我国在大数据研究上可能取得的原始创新可能为时尚早。但可以大致判断一下哪些领域可能取得原始性的贡献。
5.1基因组学和蛋白组学研究
5.2Web网络大数据分析
Web网拥有最大的数据量,而且增长很快,是大数据分析最主要的领域。我国拥有世界上最多的网民和最大的访问量,在网络大数据分析方面已经有较强的基础,有可能做出世界领先的原始创新成果,
应加大网络大数据分析方面的研究力度。
5.3大数据平台的创新
大数据研究需要的处理平台不同于高性能计算机,需要在体系结构和系统软件上进行原始性创新。我国的高性能计算机研制能力已进入世界三强(美、日、中),有能力在数据密集型计算机方面做出国际领先的原始创新。
5.2中医和经络的大数据研究
中医中药,特别是经络学说是中华文化的宝贵遗产,但在经络原理的研究方面有落后于韩国的危险。能不能将中医包括经络研究数字化,将几千年的传统医学文献和大量的中医实践记录变成可用计算机分析的大数据,也许能走出一条新路,做出令全世界为之一震的原始创新成果,为中华文化争光。
6、对开展该方向研究的建议
6.1研究革命性的算法和处理平台结构
6.2选择“预言性数据分析问题”做研究
科学工程计算可分成三类:(a)基于唯象假设的增量式进步(计算规模大一点,结果就好一些)。采用这种研究模式即使问题规模再大也不可能变革一个学科。(b)无底洞式的计算—无论多大的计算能力都不可能解决问题,这类问题的基本的物理本质还不清楚,增加计算规模也无济于事。(c)变革式计算,只要计算能力足够强大,就可以彻底解决以前解决不了的问题。
大数据研究可能与科学工程计算有类似的分类。应用大数据方法
研究社会或其他问题,应考虑首先选择“预言性数据分析问题”,即当数据规模大到一定程度,就可以解决以前解决不了的问题,实现有关科学的“变革式”进步。
6.3研究大数据的测量与感知理论,
大数据不是采集得越多越好,要在不明显增加采集成本的条件下尽可能提高数据的质量。要研究如何科学合理地抽样采集数据,减少不必要的数据采集。当前数据跨领域跨行业的拉通和共享仍存在大量壁垒,海量数据的收集,特别是关联领域的同时收集和处理存在很大挑战。只有跨领域的数据分析才更有可能形成真正的知识和智能,从而产生更大的价值。
6.4研究数据的去冗余和高效率低成本的数据存储
大数据中有大量的冗余,消除冗余是降低开销的重要途径。大数据的存储方式不仅影响效率也影响成本,需要研究高效率低成本的数据存储方式。需要研究多源多模态数据高质量获取与整合的理论技术、错误自动检测与修复的理论技术和低质量数据上的近似计算的理论和算法
6.5研究适合不同行业的大数据挖掘分析工具和开发环境
不同行业需要不同的大数据分析工具和开发环境,应鼓励计算机算法研究人员与各领域的科研人员密切合作,在分析工具和开发环境上创新。对于网络上大数据,需要研究互联网信息价值及其社会效应的可计算性以及计算结果的社会性解释。
6.6研究大幅度降低数据处理、存储和通信能耗的新技术
大数据的处理、存储和通信都将消耗大量的能源,研究创新的节能技术是重要的基础研究方向。
6.7逐步深入地开展以数据内在共性为研究对象的数据科学研究
目前的数据挖掘主要依赖先进的工具,是工具依赖而不是数据依赖,需要研究隐藏在数据本身中规律和知识,当积累足够多的技术挑战和实践知识后,应适时开展有关data-nature方面的理论研究,争取总结出类似关系代数的大数据基础理论。还需要研究海量数据计算
的复杂性理论、海量数据计算的算法设计方法学、海数据管理的理论和算法等。
6.8大力开展交叉科学研究
6.9改变科研的组织结构和合作形式
开展数据密集型研究需要改变科研的组织结构和合作形式,形成有利于协作创新的“知识生态系统”,强调个人在单学科领域学术成就的“个人化科研范式”不再适合大数据研究,行会文化和过分细分的专业化教育是推广大数据研究的阻力。