阳宇宸:大数据分析及挖掘阳宇宸

20世纪90年代,数据仓库之父的BillInmon就经常提及BigData。

2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念。

半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。

全球每秒钟发送290万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…

每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…

推特上每天发布5000万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…

每天亚马逊上将产生630万笔订单…

每个月网民在Facebook上要花费7000亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…

Google上每天需要处理24PB的数据…

这些由我们创造的信息背后产生的数据,早已经远远超越了目前人力所能处理的范畴,大数据时代正在来临…

大数据的6V1C特征(概述)

体量Volume

l非结构化数据的超大规模和增长

l占总数据量的80~90%

l比结构化数据增长快10倍到50倍

l是传统数据仓库的10倍到50倍

多样性Variety

l大数据的异构和多样性

l很多不同形式(文本、图像、视频、机器数据)

l无模式或者模式不明显

l不连贯的语法或句义

价值密度Value

l对未来趋势与模式的可预测分析

l深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)

速度Velocity

l实时分析而非批量式分析

l数据输入、处理与丢弃

l立竿见影而非事后见效

可变性Variability

l妨碍了处理和有效地管理数据的过程

真实性Veracity

l数据的质量

复杂性Complexity

大数据的6V1C特征(详述)

PB是大数据層次的临界点

KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB

指数型增长的海量数据

所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国国会图书馆中存储的数据的4000多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像)。

大数据不仅仅是“大”

比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值

多大?PB级

挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息

价值密度低,是大数据的一个典型特征

2010年海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。一些研究人员采取了一种不同的做法:他们开始跟踪海地人所持手机内部的SIM卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们准确地分析出了逾60万名海地人逃离太子港之后的目的地。后来,当海地爆发霍乱疫情时,研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。

1s是临界点

对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的。实时处理的要求,是区别大数据引用和传统数据仓库技术,BI(商业智能)技术的关键差别之一。

大数据的构成

大数据包括交易数据和交互数据集在内的所有数据集

大数据=海量数据+复杂类型的数据

海量交易数据

企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。

海量交互数据

源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。

[WHY]大数据分析及挖掘

未来已来

大数据作为时下最火热的IT词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。

数据的资源化

与云计算的深度结合

大数据离不开云处理,云处理为大数据提供弹性可拓展的基础设备,是产生大数据的平台之一。物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。

科学理论的突破

数据科学和数据联盟的成立

基于数据这个基础平台,也将建立起跨领域的数据共享平台,数据共享将扩展到企业层面,并且成为未来产业的核心一环。

数据泄露泛滥

未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。在财富500强企业中,超过50%将会设置首席信息安全官。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障。

数据管理成为核心竞争力

数据质量是BI(商业智能)成功的关键

采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中,很多数据源会带来大量低质量数据。企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。

数据生态系统复合化程度加强

系统内部角色的细分导致市场细分,系统机制调整(商业模式创新),系统结构调整(竞争环境调整),使得数据生态系统复合化程度逐渐增强。

价值所在

对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。大数据的价值体现在以下几个方面:

对大量消费者提供产品或服务的企业,可以利用大数据进行精准营销

做小而美模式的中小微企业,可以利用大数据做服务转型

面临互联网压力之下必须转型的传统企业,需要与时俱进,充分利用好大数据的价值

及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。

为成千上万的快递车辆规划实时交通路线,躲避拥堵。

分析所有库存量信息,以利润最大化为目标来定价和清理库存。

根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。

从大量客户中快速识别出金牌客户。

使用点击流分析和数据挖掘来规避欺诈行为。

面临挑战

诸多领域的问题亟待解决,最重要的是每个人的信息都被互联网所记录和保留了下来,并且进行加工和利用,为人所用,而这正是我们所担忧的信息安全隐患!更多的隐私、安全性问题:我们的隐私被二次利用了。

多少密码和账号是因为“社交网络”流出去的?

2011年4月索尼的系统漏洞导致7700万用户资料失窃

2011年CSDN密码泄露事件

[HOW]大数据分析及挖掘

执行策略

大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。要系统的认知大数据,必须要全面细致的分解:

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术,技术是大数据价值体现的手段和前进的基石。从云计算、分布式处理技术、存储技术和感知技术发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践,实践是大数据的最终价值体现。

常规方法(商用数据分析工具)

国外的有StyleIntelligence、RapidMinerRadoop、Cognos,BO,MicrosoftPowerBI,Oracle,Microstrategy,QlikView、Tableau。

国内的有BDP,国云数据(大数据魔镜),思迈特,FineBI等。

大数据分析与挖掘有机结合,才能获取真正有价值的数据财富!数据分析是一门复杂的科学,更是是一门艺术。同样的数据会有不同解读,优秀和平庸的差异,有时候差在一种灵感。所有的分析要从结果出发,没有结论的数字罗列并不是分析。对结果负责,发现问题后立即解决问题。

营运规划

绩效分析与管理

投资与决策分析

寻找未来企业的“成长引擎”

确定企业发展的阻力

为长期规划和短期规划制定“growingmap-发展线路图”

好的决策以数据为本,而不是靠拍脑袋和闭门造车!从数据中了解和发现客户:他们的类型,需求,行踪,习惯,趋势等等,为开发有价值的产品和服务提供源泉。让数据来衡量产品和运营的效果,找到改进和完善的方案数据分析为战略决策提供支持和建议。

量化的KPI

报表管理和设计

单一的KPI管理vs全面的KPI管理(BSC)

静态的vs动态的

只考虑成果的vs综合考虑成果和成本的

无计划/预测/控制的管理和有计划/预测/控制的管理

无预警机制的管理和有预警机制的管理

递进的过程

Operation:提高劳动生产率的敏感度分析

其他:买还是租

Step1:问有效的问题

检验2-有用性检验,这个问题的答案是否对分析有帮助

检验3-可行性性检验,你收集的数据是否真的能帮助你解答问题

Step2:建立一些假设

复杂的问题通常有很多潜在的答案

正确的假设决定你收集怎样的数据并如何看待他们

Step3:取得有效的数据

一致性

例如:阿里中供免费会员曝光数据只有从08年7月开始有,无法分析08年4月产品默认搜索实现后对中供、ITP及免费会员曝光资源分配影响

精确度

数据不能准确量化:例如销售人员的销售技巧数据的取得很困难:例如客户的数据如成交

时效性

Step4:分解原因

为何要分解原因

分解的原则--直接不交集

直接因素:因素和结果之间没有其他可能的间接关系

例如:最近的周末都下雨,最近的雨天我们的PV就下降,所以雨天是PV下降的原因。失败的原因:雨天和PV之间有周末这个因素,周末是PV下降的原因。

如何分析被分解的原因(KISS原则)

问一问:每个原因是否已经互不相交?

问一问:每个原因是否是直接的,是否是其他原因的衍生产物?

孤立一个因素,将有无此因素的两个结果进行比较

Step5:KISS原则

“开关”工具

影响前vs影响后

有影响vs无影响

“XY”工具

X–影响因素

Y–产生结果

“开关”工具–案例

问题:哪些是影响续签率的重要因素?

假设:订阅TradeAlert能增加买家机会,从而可能会影响效果和续签率

简单的分析方法:“有/无”订阅、群体的续签率是否存在差

N无订阅

Y有订阅

新签合同续签率

续签合同续签率

“XY”工具–案例

问题:哪些是影响中供获得曝光机会的主要原因

假设:产品覆盖面广应该是影响曝光的重要因素

简单的分析方法:带来曝光的买家搜过关键词数(代表产品覆盖面)与产品曝光次数的“XY”分析

Step6:验证假设和结果的关系

分析结果在逻辑上是否合理?

是否有明显的逻辑错误?

征询前线同事的直接感受是否与分析结果相符?

一些违反直觉的结果往往代表一定有什么东西你没有考虑到。

什么东西是你的老板肯定会问的?

假设他的问题,准备好你的答案

特殊方法

基本数据的分析及挖掘

比较分析

对比参照数据,追踪差异原因;预测,去年同期,上期都可以是参照数据。

趋势分析(最常用的报表手段)

因素分析

比率分析

常用的财务上的比率分析有:资产负债率;人力资源管理上经常用的是:人员周转率,离职率等

组成分析法

将某一数据拆分,研究其组成,如:国家组成分析、行业组成分析

内部数据和外部数据的比较分析

企业与竞争对手付费产品性价比分析

层层筛选法

适用于选择目标市场和目标群体

对多种影响因素按其重要程度进行一定组合,先按第一组合选择出较大范围目标对象,再按第二组合对第一组合筛选出来的对象进一步缩小范围,以此类推,得出最终目标对象

复杂数据的分析及挖掘

数据挖掘方法(DataMining)

定义:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

优势:可处理海量数据、可分析N种影响因素对结果的影响程度、可根据历史来预测未来。

THE END
1.大数据数据分析数据挖掘的差别大数据分析与数据挖掘数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看,可以把数据分析分为以下4个层次:数据统计,OLAP,数据挖掘,大数据。 (二)数据统计 数据统计是最基本、最传统的数据分析,自古有之。是指通过统计学方https://blog.csdn.net/away30/article/details/78183534
2.大数据数据挖掘机器学习三者的区别和联系1、大数据 大数据就是许多数据的聚合; 大数据的特征: 1、数据量大 2、结构复杂 3、数据更新速度快 2、数据挖掘 机器学习方法在大型数据库中的应用称为数据挖掘(Data Mining) 数据挖掘就是把大数据的价值发掘出来,比如根据过去30年的气象数据,通过数据挖掘,几乎可以预测明天的天气是怎么样的,有较大概率是正确的; https://www.jianshu.com/p/e50ff2010cc5
3.什么是大数据挖掘方法帆软数字化转型知识库大数据挖掘方法是指通过使用各种技术和工具,从庞大的数据集中提取有价值的模式、知识和洞察的过程。大数据挖掘方法包括:数据预处理、数据清洗、数据集成、数据变换、数据挖掘、模式评估、知识表示。其中,数据预处理是大数据挖掘过程中至关重要的一步,涉及对原始数据进行清洗、转换和准备,以确保其质量和一致性。数据预处理https://www.fanruan.com/blog/article/602183/
4.经典!10大数据挖掘算法!10大数据挖掘算法! 国际权威的学术组织 the IEEE International Conference on Data Mining (ICDM) 早前评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART。 在此,花哥我深入介绍下这些算法的原理及实践经验,并补充介绍下当下热门的集成https://zhuanlan.zhihu.com/p/688376648
5.大数据的挖掘众所周知,大数据时代的大数据挖掘已成为各行各业的一大热点。 一、数据挖掘在大数据时代,数据的产生和收集是基础,数据挖掘是关键,数据挖掘可以说是大数据最关键也是最基本的工作。通常而言,数据挖掘也称为DataMining,或知 来源:社区问答 在电子商务领域如何利用挖掘大数据? 挖掘大数据的发展历史并不长,首次引人挖掘https://m.sf.163.com/search/5aSn5pWw5o2u55qE5oyW5o6Y
6.大数据崛起与数据挖掘分析论文而数据挖掘技术的重要性使人们对大数据的作用有了更加全面和深刻的了解,因此,要不断提升自身的数据挖掘能力,从而促进大数据技术不断崛起[7]。3.2大数据崛起有助于提高数据挖掘的工作效率任何一个实力雄厚的企业,其自身的技术能力一般不会太差,大数据崛起就说明了大数据挖掘技术已变得相当规范,从大数据技术被广泛运用到各https://www.unjs.com/lunwen/f/20191128180459_2250389.html
7.大数据挖掘是什么意思?一文讲清大数据挖掘,又称数据挖掘,是一种数据分析技术,主要用于帮助企业从复杂的数据中发现新的信息。它主要用于探索大数据集,以便发现潜在的关系,模式和规律。它可以帮助企业对客户更有效地收集、处理和理解客户信息,以便企业可以根据客户的特征和需求为客户提供更佳的服务。 https://www.sgpjbg.com/info/046662347844bfcc4f45af2c4bd876a3.html
8.大数据挖掘论文翻译:Dataminingwithbigdata对于一个处理大数据的智能学习数据库系统,关键在于适应巨大容量的数据,为此前提到的HACE原理所描述的特征提供应对方案。图2提供了大数据处理架构的一个概念模型,从里向外包括三层,依次是数据获取和计算(第一层),数据隐私和行业知识(第二层),大数据挖掘算法(第三层)。 https://blog.51cto.com/sddai/3026009
9.大数据关键技术四—大数据分析及挖掘技术随着大数据时代的到来,在大数据观念不断提出的今天,加强数据大数据挖掘及时的应用已成为大势所趋。 什么是大数据挖掘? 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 https://cloud.tencent.com/developer/news/320676
10.《大数据时代的数据挖掘》小说在线阅读本书以当前热点的数据挖掘应用贯穿全书,通过详解大数据挖掘技术在系统日志、工作票、可持续性研究、推荐系统、智能问答系统、社交媒体、生物信息学与健康医疗、隐私保护等方面的实际应用案例,阐述了如何更好地应用和学习数据挖掘技术。本书融入了数据挖掘前沿技术和典型应用,不仅适合热爱和关心数据挖掘技术的学术界和工业界https://m.qidian.com/book/1015916868/
11.大数据,数据挖掘人人都是产品经理“大数据自动挖掘”才是现在这些大数据的真正意义 现在大数据火得不行,几乎人人都在说大数据,但到底什么是大数据,恐怕没有多少人知道,鱼目混珠的人太多。 大数据不是指很多很多数据。 所以不是存储了很多数据就是在 师妹 大数据,数据挖掘 快讯 查看更多 https://www.woshipm.com/tag/%E5%A4%A7%E6%95%B0%E6%8D%AE%EF%BC%8C%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98
12.长尾关键词挖掘站长工具智能改写5118通过对排名各类大数据挖掘,提供关键词挖掘,行业词库,站群权重监控,关键词排名监控,指数词,流量词挖掘工具等排名工作人员必备百度站长工具平台https://www.5118.com/
13.大数据分析与挖掘大数据分析与挖掘 作者:朱晓峰 ISBN:9787111621027 出版社:机械工业出版社 出版年:2019 R语言大数据分析与挖掘 作者:谢笑盈 ISBN:9787121452383 出版社:电子工业出版社 出版年:2023 Hadoop大数据分析与挖掘实战 作者:张良均 ISBN:9787111522652 出版社:机械工业出版社 出版年:2016 大数据分析与挖掘实验教程 作者:万欣https://www.las.ac.cn/front/book/detail?id=1a9c127b88c6fa43732b7a20c91a9973
14.大数据与数据挖掘的概念及相互联系大数据与数据挖掘的概念及相互联系 当“大数据”铺天盖地般向我们涌来,人们往往期冀能够对大数据能够有更进一步的了解,“数据挖掘”因此成为我们理解大数据概念绕不过去的“坎”。通过将大数据与数据挖掘进行对比分析,将有助于人们了解大数据的来龙去脉和未来真实走向。https://www.cda.cn/view/117517.html
15.《大数据分析与挖掘》课程教学大纲(2022年2023年).docx挖掘英文名称:Bigdataanalysisandmining 课程类别:专业选修课学 时:48(理论课:32,实验课:16)学分:3 适用对象:软件工程专业、计算机科学与技术考核方式:考查先修课程:多媒体技术、程序设计、软件工程 二、课程简介本课程从大数据挖掘分析技术实战的角度,结合理论和实践,全方位地介绍基于 Python语言的大数据挖掘算法的https://max.book118.com/html/2022/0709/6100232111004210.shtm
16.大数据的数据挖掘方案有哪些?大数据的数据挖掘方案有:1、神经网络方法;2、遗传算法;3、决策树方法;4、粗糙集方法;5、覆盖正例排斥反例方法;6、统计分析方法;7、模糊集方法。关于数据挖掘,你必须知道的几个主要方法数据挖掘是一门交叉性的新兴学科,它将数据可视化、数据库技术、高性能计算机、统计学、机器学习、模式识别、人工智能等多个范畴的https://www.linkflowtech.com/news/1986
17.华为大数据HCIEBigDataHCIE-Big Data认证定位于大数据分析领域中大型分布式并行处理数据仓库平台的架构原理、优化设计、应用开发和大数据挖掘领域的基础理论、常用挖掘算法、应用设计以及开发,旨在推动业界大数据行业的专家型人才培养。 HCIE-Big Data认证包括但不仅限于:(1)华为企业级的大型并行处理分布式数据仓库平台FusionInsight LibrA的架构、功https://www.yeslab.net/productinfo/473898.html