大数据的概念

作者:厦门大学计算机科学系林子雨博士/副教授全国高校知名大数据教师

E-mail:ziyulin@xmu.edu.cn

随着大数据时代的到来,“大数据”已经成为互联网信息技术行业的流行词汇。关于“什么是大数据”这个问题,大家比较认可关于大数据的“4V”说法。大数据的4个“V”,或者说是大数据的四个特点,包含四个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。

随着数据量的不断增加,数据所蕴含的价值会从量变发展到质变。举例来说,有一张照片,照片里的人在骑马。受到照相技术的制约,早期我们只能每一分钟拍一张,随着照相设备的不断改进,处理速度越来越快,发展到后来,就可以1秒钟拍1张,而当有一天发展到到1秒钟可以拍10张以后,就产生了电影。当数量的增长实现质变时,就由一张照片变成了一部电影。同样的量变到质变过程,也会发生在数据量的增加过程之中。

大数据时代的数据产生速度非常迅速。在Web2.0应用领域,在1分钟内,新浪可以产生2万条微博,Twitter可以产生10万条推文,苹果可以下载4.7万次应用,淘宝可以卖出6万件商品,百度可以产生90万次搜索查询,Facebook可以产生600万次浏览量。大名鼎鼎的大型强子对撞机(LHC),大约每秒产生6亿次的碰撞,每秒生成约700MB的数据,有成千上万台计算机分析这些碰撞。大数据时代的很多应用,都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践,因此,数据处理和分析的速度通常要达到秒级甚至毫秒级响应,这一点和传统的数据挖掘技术有着本质的不同,后者通常不要求给出实时分析结果。为了实现快速分析海量数据的目的,新兴的大数据分析技术通常采用集群处理和独特的内部设计。以谷歌公司的Dremel为例,它是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析,通过结合多级树状执行过程和列式数据结构,它能做到几秒内完成对万亿张表的聚合查询,系统可以扩展到成千上万的CPU上,满足谷歌上万用户操作PB级数据的需求,并且可以在2~3秒内完成PB级别数据的查询。

大数据虽然看起来很美,但是,价值密度却远远低于传统关系数据库中已经有的那些数据。在大数据时代,很多有价值的信息都是分散在海量数据中的。以小区监控视频为例,如果没有意外事件发生,连续不断产生的数据都是没有任何价值的,当发生偷盗等意外情况时,也只有记录了事件过程的那一小段视频是有价值的。但是,为了能够获得发生偷盗等意外情况时的那一段宝贵的视频,我们不得不投入大量资金购买监控设备、网络设备、存储设备,耗费大量的电能和存储空间,来保存摄像头连续不断传来的监控数据。

如果这个实例还不够典型的话,那么我们可以想象另一个更大的场景。假设一个电子商务网站希望通过微博数据进行有针对性营销,为了实现这个目的,就必须构建一个能存储和分析新浪微博数据的大数据平台,使之能够根据用户微博内容进行有针对性的商品需求趋势预测。愿景很美好,但是,现实代价很大,可能需要耗费几百万元构建整个大数据团队和平台,而最终带来的企业销售利润增加额可能会比投入低许多,从这点来说,大数据的价值密度是较低的。

THE END
1.www.stats.gov.cn/zsk/snapshoot?reference=33e2b9cdb6391521c5知识库 知识分类:|知识来源: |发布日期:https://www.stats.gov.cn/zsk/snapshoot?reference=33e2b9cdb6391521c53328be6244e40b_8EC2B931E96309B121FA411C24B82731
2.大数据文摘6506内容 1关注 9.4万粉丝 专注大数据,每日有分享! 山西 更多信息 黄仁勋:扫过最多厕所的CEO 2024-12-20 15:35 锤爆Sora,尺度最大,谷歌发布最强视频模型Veo2,叫板海螺可灵 2024-12-18 14:16 中国科学家李春来、徐沪济上榜!2024《自然》十大科学人物揭晓 https://www.163.com/dy/media/T1425880425836.html
3.大数据简介:业务数据转型指南到2027 年,全球大数据市场预计将产生超过 1030 亿美元的收入,而其目前的市场价值约为 2740 亿美元。 为了解释为什么大家都在热议它,Netflix借助大数据每年在客户留存方面能节省 10 亿美元。 不过,这个大家都在频繁提及的术语到底是什么呢?为什么大多数商业人士都对它如此着迷? https://www.jianshu.com/p/141d90e40ae1
4.大数据(IT行业术语)“三大体系”是指构建先行先试的政策法规体系、跨界融合的产业生态体系、防控一体的安全保障体系;“七大平台”则是指打造大数据示范平台、大数据集聚平台、大数据应用平台、大数据交易平台、大数据金融服务平台、大数据交流合作平台和大数据创业创新平台;“十大工程”即实施数据资源汇聚工程、政府数据共享开放工程、综合治理示范https://baike.sogou.com/m/fullLemma?lid=59756418
5.大数据摘要:随着大数据、云计算和人工智能的快速发展,数据流通安全治理面临新的挑战,亟须形成系统化、可持续增长的技术体系。从技术落地的角度出发,讨论了构建数据流通安全体系存在的问题,梳理了国外典型的数据安全技术体系。在此基础上,提出了数据流通安全治理技术体系框架,从数据流通生命周期和数据流通安全风险应对两个视角,构建https://www.j-bigdataresearch.com.cn/
6.大数据大数据一词自1990年代开始使用,有人称赞JohnMashey推广了该术语。大数据通常包含的数据集的大小超出了常用软件工具在可容忍的经过时间内捕获、整理、管理和处理数据的能力。大数据哲学包含非结构化,半结构化和结构化数据,但是主要关注于非结构化数据。大数据“大小”是一个不断移动的目标,如2012的范围从几十兆兆字节到https://vibaike.com/19573/
7.什么是大数据?从7个V详谈大数据的定义!大数据是指规模巨大、复杂多样的数据集合,无法用传统的数据处理工具进行捕捉、管理、处理和分析的数据,其特点主要包括多样性(Variety)、大量性(Volume)、高速性(Velocity)、低价值密度(Value)、真实性(Veracity)、变异性(Variability)和可视化(Visualization)。这七个特点构成了大数据的基本框架,影响着数据的采集、存储、https://www.fanruan.com/bw/big-data-definition
8.大数据时代(豆瓣)《大数据时代》是国外大数据研究的先河之作,本书作者维克托?迈尔?舍恩伯格被誉为“大数据商业应用第一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。 https://book.douban.com/subject/20429677/
9.大数据培训大数据课程大数据培训机构Hadoop生态技术与数据仓库开发堪称大数据鼻祖,占据企业大数据研发半壁江山。 本阶段理论结合实践,专注数据仓库及周边,覆盖Linux、Shell、Zookeeper、Hadoop、Hive、Hue、DBeaver、Kettle、Superset、FineBI、DataX、Flume、DolphinScheduler、数据仓库方法论等实用技术及企业级离线数据仓库项目实践。助力从0到1掌握大数据硬技术,直http://www.qfedu.com/big_data/
10.什么是大数据?Oracle中国3. 只有真正分析数据并基于数据数据洞察采取有效行动,您的大数据投资才会取得回报。您可以:对各种数据集进行可视化分析以获得全新理解;进一步探索数据以获得全新洞察;与他人分享您的洞察;结合机器学习和人工智能构建数据模型;立即行动起来,释放您的数据价值!https://www.oracle.com/cn/big-data/what-is-big-data
11.什么是大数据,大数据有什么特点大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,简单来说大数据就是海量的数据。 什么是大数据,大数据有什么特点 企服解答 https://36kr.com/p/1461500714175237
12.《大数据时代》CCTV节目官网纪录片《大数据时代》 分类:社会 集数:5集 导演:刘鸿彦 滕忠彬 许伟 黄大治 苏凯 邱栋林 钟洋 牛玲玲 简介:该片是国内首部大数据产业题材纪录片,节目细致而生动地讲述了大数据技术在政府治理、民生服务、数据安全、工业转型、未来生活等方面给我们带来的改变和影响。https://tv.cctv.com/2019/07/02/VIDAFtTIeFx0X2b1MO1j8n7d190702.shtml
13.大数据基础知识科普丨大数据的定义及来源这一阶段非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道。像电信、银行、电商等数据量巨大的行业开始利用这https://mp.weixin.qq.com/s?__biz=MzI4MjE0NDQ5OA==&mid=2651056075&idx=8&sn=4902287e4a2f379baa0b7b7e2af9109f&chksm=f13b26706c6262ee34e2e6043f8e3969824a2bd1d2d10ce504c9b59b1fcc9f626062e6a7b185&scene=27
14.什么是大数据分析?MicrosoftAzure与其他大数据平台一样,Azure 中的大数据分析由许多单独的服务组成,这些服务协同工作以从数据中获取见解。这包括基于 Apache Hadoop 平台的开源技术,以及用于存储、处理和分析数据的托管服务,包括 Azure Data Lake Store、Azure Data Lake Analytics、Azure Synapse Analytics、Azure 流分析、Azure 事件中心、Azure IoT 中心https://azure.microsoft.com/zh-cn/resources/cloud-computing-dictionary/what-is-big-data-analytics
15.大数据精品资料.pdf大数据【精品资料】.pdf 7页VIP内容提供方:huangqiaoling1 大小:161.63 KB 字数:约7.02千字 发布时间:2020-11-23发布于湖南 浏览人气:115 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)大数据【精品资料】.pdf 关闭预览 想预览更多内容,点击免费在线预览全文 免费在线https://max.book118.com/html/2020/1123/7046032042003022.shtm
16.什么是大数据?一文讲清大数据的概念演进趋势产业链及关键技术2011年12月,工信部发布的物联网十二五规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这些是大数据的重要组成部分。 2014年,“大数据”首次出现在当年的《政府工作报告》中。《报告》中指出,要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来https://blog.csdn.net/ccddtomato/article/details/142388403
17.网易大数据平台大数据开发技术建模平台主数据资产萃取交换历经十余年技术沉淀,以全面的大数据技术、产品及服务,服务企业“看数”、“管数”、“用数”等业 务场景,致力于为企业量身打造领先、稳定、可控、创新的全链路数据生产力平台,盘活数据资产。现已成熟应用于金融、国央 企、制造、流通、医药等行业,成功助力300+头部客户实现数字化转型,全面释放数据价值。 https://bigdata.163yun.com/
18.数据观中国大数据产业观察数据观是一个大数据新闻门户网站,专注大数据、大数据分析和大数据应用,同时涉及移动互联网、征信、云计算等领域,为读者提供专业的大数据信息交流平台。http://cbdio.com/
19.什么是大数据战略以及如何构建请确保利益相关者从一开始就参与进来,并持续提供关键反馈,这包括来自数据管理团队的人员、业务线负责人、数据工程师、数据科学家以及任何将利用大数据存储的其他人。 步骤2:识别数据源并评估流程 下一步涉及识别数据的多样性,以及评估企业中当前的业务流程、数据源、数据资产、技术资产、能力和政策。 https://www.51cto.com/article/702675.html
20.13个大数据应用案例,告诉你最真实的大数据故事[通俗易懂]答案是肯定的。大数据目前是当下最火热的词了,你要是不知道大数据这个概念,都不好意思在众人面前开口了。然而实际上很多人都对大数据的应用模糊不清。现在就让我们从下面十三个大数据应用案例来了解下最真实的大数据故事把,并鲜明得了解大数据在生活当中实际应用的情况。https://cloud.tencent.com/developer/article/2094218