什么是分析,数据分析决胜未来

------故明君贤将,所以动而胜人,成功处于众者,先知也。先知者,不可取于鬼神,不可象于事,不可验于度,必取于人,知敌之情也。

——《孙子兵法用间篇》

通过上面《孙子兵法》这段话,我们也可以知道古人也在很早就会使利用分析知己知彼,洞察秋毫,决胜千里。

02

什么是分析

一般的定义是为:一种全面的、基于数据驱动的解决问题的策略和方法。分析通过试用逻辑、归纳推理、演绎推理、批判思维、定量阀(结合数据)等手段,来检验和分析现象,从而确定其本质特征。

分析的概念

1.商业智能和报表

关于分析和商业智能的的区别,几乎没有形成过共识。有些人将分析归类为商业智能的一个子集,而另一些人则把它归为完全不同的类别。

大多数商业智能应用的局限性并不在于技术的限制,而在于分析的深度和为行动提供依据的真正洞察力。例如,告诉我们已经发生了什么事情并不能帮助我们决定如何行动以改变未来,这样的结果往往通过离线分析可以得到。分析的真正责任是形成可行动的,可操作的洞察力,从而能够帮助我们了解已经发生的事情(在什么地点发生,为什么会发生,在什么条件下发生)预测出未来可能发生什么,以及我们可以做什么来影响和优化未来的结果。

图1:商业智能(BI)仪表盘

而报表,是用来描述有关现象的信息展示技术,通常位于数据传递管道的尾部,在那里可以直观地访问数据和结果。而另一方面,分析则超越了对数据的描述,它真正理解了这个现象的内在规律,从而来预测、优化和预判未来应采取的适当行动。

2.大数据

大数据(BigData)是一种描述不和谐信息的方法、在将数据转化为洞察能力的过程中,组织必须处理这些难以处理的信息。如果将大数据描述当今信息复杂的概念,那分析就可以帮助我们以主动的方式(预测性和规范性)来分析复杂性,而不是以被动的方式(BI,商业智能)来应对。

3.数据科学

数据科学是一门科学学科,它利用统计学和数学等领域的定量方法及现代技术,开发出用于发现模式、预测结果和为复杂问题找到最佳解决方案的算法。

数据科学和分析的区别在于,数据科学可以帮助甚至支持自动化实现对数据的分析,但是分析是一种以人为中心的策略,它充分利用各种工具,包括那些在数据科学中发现的工具,来理解事物现象之间的真正本质。

4.边缘分析

边缘分析一般指的是分布式分析,分析被内置到一些机器或系统中,通过这种内置的方式,信息的生成与收集已经成为企业“下意识”的自主活动。边缘分析通常与智能设备,物联网(IoT)联系在一起,把分析嵌入到收集设备上完成的,给物联网带来独特的价值机会。

5.信息学

信息学(informatics)是信息技术和信息管理的交叉学科。在实践中,信息学涉及用于数据存储和检索的处理技术。从本质上讲,信息学讨论信息是如何管理的,指的是支持流程化工作流的系统和数据生态系统,而不是对其中发现的数据进行分析。

在信息科学中经常谈到的健康信息学,它专门用于保健医疗研究,是介于健康信息技术和健康信息管理之间的一种专业技术,它将信息技术、通信和保健结合起来,以提高病人护理的质量和安全性。在下图中,我们可以看出,它位于人、信息和技术三者交汇的中心。

分析集成了所有这些概念,并依赖于底层数据、支持技术和信息管理过程来实现这一目标。

图2:健康信息管理、健康信息技术和信息学之间的区别

6.人工智能与认知计算

人工智能(AI)是一门“让计算机做需要人类智能才能做的事情的科学”。

人工智能和机器学习的区别在于,人工智能是指利用计算机完成模式的识别与探索这类“智能”工作的广义概念,而机器学习是人工智能的子集,它主要利用计算机从数据中学习的概念。

机器学习可以根据数据进行学习和预测,不是仅仅根据特定的一组规则或指令完成事先规划好的操作,而是利用算法训练来自主识别大量数据中的模式。

03

分析方法论

1.应用统计与数学

图3:统计与其他定量科学之间的关系

数学的思维是演绎性的,就是通过一般定律或原则来推断某一特定实例,而统计推理是归纳性的,就是从具体实例中提炼一般规律。这种差异在分析环境下是很重要的,因为我们将归纳推理和演绎推理应用与分析解决不同的问题。因此,将数学和统计都应用到分析领域是适当的和必要的。

3.自然语言处理

自然语言处理(NaturalLanguageProcess,NLP)是通过计算机来理解和生成“自然语言”的方法。NLP专注人类语言和计算机之间相互交互的研究领域,NLP的目标是理解计算机文本中的自然语言,用于文本分类、提取和总结。例如:在分析过程中,我们获取过去的描述信息(如,文本、文档、推文、演讲),并对它们进行语义分类或情绪理解,处理过的文本将作为分析过程的输入,用于预测建模、决策分析、搜索或回答问题的机器人。

下图描述了一个完整的自然语言处理的普遍过程。

图5:自然语言处理过程示意图

4.文本挖掘与文本分析

文本挖掘处理文本数据本身,文本分析涵盖范围比较广泛,通常包括应用统计分析、机器学习和其他一些高级分析技术,但通常被认为等同于文本挖掘。

5.机器学习

机器学习的核心是使用算法来建立量化分析模型,帮助计算机模型从数据中“学习”。它同以人为中心的处理过程不同,它是由计算机学习和发现隐藏在数据中的模式,而不是由人去直接建立模型。一般而言,机器学习中模型建立和模型管理的概念是指能够持续并重复开展后续的决策流程,而不是高度人工参与的常常基于统计手段的分析。

随着近年来计算能力的进步,机器学习可以用来自动地实现针对大数据的复杂数学计算,而这在以前是不可能实现的。

机器学习常见的方法如下图:

图6:机器学习常用的技术归纳

6.数据挖掘

数据挖掘是指在大型数据集中发现和解释规律模式,以解决业务问题的过程。数据挖掘作为一种分析大型数据库以生成新的或与众不同的信息方法而被广泛使用。

数据挖掘采用传统的统计方法,以及人工智能和机器学习技术,目的是在我们拥有的数据中识别出以前未知的模式并进行预测。

04

分析的目的

分析是一种支持变革的全面战略,它为干预措施或战略转型提供信息。分析的目的是支持数据驱动的、基于事实的探索过程。这一切是为了建立信心,推动我们了解知识,并利用这些知识来理解、解释、预测和优化。

总的来说,分析的主要目的主要有以下四点:

1.分析是关于改善结果的活动

我们通过分析来理解、描述和解决问题,并通过分析做出决策和创造洞察力,以推动变革。我们用我们所知道的来理解我们的世界:描述、发现、预测并给出建议。

2.分析是关于创造价值的活动

结果是分析的一个关键组成部分,我们通过分析要创造一些有价值的东西,否则分析将无任何意义。

3.分析是关于发现的活动

如何我们常用的商业智能是关于认知可知的事物,那么分析可以帮助我们探索未知的事物。分析的力量在与它支持我们对未知探索,我们利用推理和理解能力来挖掘数据中隐藏的模式。

4.分析是关于促成变革的活动

最后,关于变革,很少人喜欢或者主动拥抱变革,但变革是不可避免,完全不变的组织几乎不存在。推动组织变革的动力可以有多种形式,对于组织来说,可能是以危机的形式出现,比如灾难、利润下降、政府强制要求、系统性失败或者公共卫生危机等。

05

总结

在很大程度上,分析是一项有弹性的工作,因为它能够影响我们的工作方式,我们所做的决策以及我们取得的成果。分析常常与大数据、数据科学、信息学、甚至商业智能(BI)等放在一起讨论。

分析是一种组织战略,也是一个过程。对于企业来说分析不是终点,而是获得洞察力以实现变革的过程,分析是将数据转化为切实可行的措施的艺术和科学。

推荐阅读

数据分析的价值是什么?

经常有同学在工作中抱怨,感觉“做的分析没有啥业务价值,报表丢出去了也没回应”。到底怎么做才能让数据分析体现价值,今天结合一个具体场景,详细讲解一下。问题场景…

1,412

数据分析与数据挖掘的区别是什么?

数据分析可以分为广义的数据分析和狭义的数据分析,广义的数据分析就包括狭义的数据分析和数据挖掘,我们常说的数据分析就是指狭义的数据分析,下面我们来看一下数据分析与…

1,832

小会计做着做着,就跑去做数据分析了,分析做着…

最让我头疼的应该是在会议上面做汇报吧,内心是胆怯的。我觉得认真也是一种天赋的。特别是高压下还能仔细认真不出错。有时候不是不认真,而是工作太多又要求几天内出报表,…

THE END
1.数据挖掘算法(AnalysisServices–数据挖掘)MicrosoftLearn为特定的业务任务选择最佳算法很有挑战性。您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。例如,您不仅可以将 Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。 https://technet.microsoft.com/zh-cn/library/ms175595(v=sql.100).aspx
2.数据挖掘之七种常用的方法经管文库(原现金交易docx 203.39 KB0个论坛币 GDP和人均GDP平减说明.xls 27 KB0个论坛币 关键词:数据挖掘 https://bbs.pinggu.org/thread-13312809-1-1.html
3.数据挖掘的步骤有什么?- 标准化或归一化数据,确保各个特征在同一尺度上。4. **数据探索和可视化**:- 使用统计方法和图表来分析数据的分布、关系和趋势。- 通过可视化工具揭示数据的模式和结构。5. **选择合适的算法**:- 根据问题的性质和数据的特点,选择合适的挖掘技术。- 可能包括分类、回归、聚类、关联规则、序列挖掘等。6. *https://baijiahao.baidu.com/s?id=1784887831606470411&wfr=spider&for=pc
4.数据挖掘与分析的六种经典方法论最近梳理了一下数据挖掘与分析的常用方法论,这里简要介绍6种模型。 1、CRISP-DM 模型 CRISP-DM是CrossIndustry Standard Process for Data Mining(跨行业数据挖掘标准流程)的字母缩写。CRISP-DM是由一家欧洲财团(时称SIG组织)在20世纪90年代中后期提出来的,是一套用于开放的数据挖掘项目的标准化方法,也是业内公认https://www.niaogebiji.com/article-30475-1.html
5.数据挖掘复习(包括一些课本习题)[通俗易懂](1)数据挖掘中使用的数据是数据对象及其属性的集合,属性为对象的特性(1)类属性和数值属性,标称,序数,区间,比例 数据预处理 代码语言:javascript 复制 (1)数据清理(2)数据集成(3)数据变换(4)数据规约(5)离散化及特征选择 噪声处理方法 (1)分箱,聚类,回归 https://cloud.tencent.com/developer/article/2093242
6.两种重要的知识管理技术:数据挖掘和知识发现知识管理数据挖掘可以用到的技术有决策树法:神经网络法、遗传算法、统计分析方法、粗集方法、可视化方法。 3.1 决策树法 决策树法就是以信息论中的互信息(信息增益)原理为基础寻找数据库中具有最大信息量的字段建立决策树的一个结点,再根据不同取值建立树的分支;在每个分支子集中重复建立下层结点和分支,这样便生成一棵决策https://articles.e-works.net.cn/km/article71041.htm
7.商战数据挖掘:你需要了解的数据科学与分析思维于是他们基于“企业造影”数据——描述企业特点的数据——来进行相似性匹配。相似性匹配是一种常用的商品购买推荐(依据人们在产品方面的喜好或购买记录,来寻找与你相似的人)方法的实现基础。度量相似性也是解决其他数据挖掘任务的基础,如分类、回归和聚类。第 6 章将详细讲解相似性及其用途。https://www.ituring.com.cn/book/tupubarticle/28952
8.10种流行的Web挖掘工具下面就来介绍 10 种***的 Web 挖掘工具和软件。 Data Miner Google Analytics SimilarWeb Majestic Scrapy Bixo Oracle Data Mining Tableau WebScraper.io Weka 1.Data Miner(Web 内容挖掘工具) Data Miner Data Miner是一种有名的数据挖掘工具,在从网页中提取数据方面非常有效。它将提取的数据提供到 CSV 文件或https://www.51cto.com/article/596091.html
9.信息系统项目管理师重点内容汇总(第八天)结构化设计 (Structured Design,一种面向数据流的方法,它以 SRS和 SA 阶段所产生的 DFD 和数据字典等文档为基础,是一个自顶向下、逐步求精和模块化的过程。SD 方法的基本思想是将软件设计成由相对独立且具有单一功能的模块组成的结构,分为概要设计和详细设计两个阶段,其中概要设计又称为总体结构设计 https://developer.aliyun.com/article/1416724
10.数据挖掘机器学习总结(通用6篇)紧张而又充实的学习生活结束了,想必你学习了很多新学习技巧,让我们好好总结一下,写一份学习总结吧。那么你知道学习总结该如何写吗?以下是小编为大家整理的数据挖掘机器学习总结(通用6篇),仅供参考,希望能够帮助到大家。 数据挖掘机器学习总结 篇1 20xx年时间https://www.yjbys.com/zongjie/xuexi/697188.html
11.苏木亚及其学术专著《基于谱聚类的金融时间序列数据挖掘方法研究》(5)第五章,基于成分分析的单变量时间序列谱聚类方法。在分析利用成分分析法对单变量时间序列降维原理的基础上提出了两种基于成分分析的单变量时间序列谱聚类方法。在仿真数据集和真实股票时间序列数据集上对比了几种单变量时间序列聚类方法的聚类效果。 (6)第六章,谱聚类方法在金融时间序列数据挖掘中的应用。首先,以https://news.imu.edu.cn/info/1076/16128.htm
12.六种数据分析的方法六种数据分析的方法包括:1、聚类分析——是一种探索性的分析;2、因子分析——从变量群中提取共性因子的统计技术;3、相关分析——研究现象之间是否存在某种依存关系;4、文本分析——定性分析的一种形式;5、描述性分析——通过计算现有数据来描述;6、推论分析——最常见方法是假设检验和估计理论。 https://36kr.com/p/1501176084446089
13.分享Python中的7种交叉验证方法python更新时间:2022年03月03日 10:03:33 作者:Python学习与数据挖掘 这篇文章主要给大家分享的是Python 中的 7 种交叉验证方法,交叉验证是一种用于估计机器学习模型性能的统计方法,它是一种评估统计分析结果如何推广到独立数据集的方法,下文相关介绍,需要的朋友可以参考一下https://www.jb51.net/article/239475.htm
14.数据分析的方法有哪些6.因子分析; 7.时间序列分析; 8.决策树分析。通常每种方法都有自己的优点和限制。分析师需要在多种方法之间进行选择,并尝试不同的方法来获取洞见,以得到更准确、全面和深入的分析结果。 一、数据分析的方法及对应优缺点 1.描述性统计分析 描述性统计分析是对数据的数量特征进行概述和总结的方法。它包括各种测量方https://www.linkflowtech.com/news/1786
15.数据挖掘之认识数据数据挖掘之认识数据 本文您将要了解: 1、数据由什么类型的属性或字段组成? 2、每个属性具有何种类型的数据值? 3、哪些属性是离散的?哪些是连续值的? 4、数据看上去如何?值如何分布? 5、有什么方法可以可视化地观察数据,以便更好地理解它吗? 6、能够看出离群点吗?https://www.jianshu.com/p/e1caa055fd8a
16.一文看懂机器学习「3种学习方法+7个实操步骤+15种常见算法」机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。 所以,机器学习不是某种具体的算法,而是很多算法的统称。 机器学习包含了很多种不同的算法,深度学习就是其中之一,其他方法包括决策树,聚类,贝叶斯等。 https://easyai.tech/ai-definition/machine-learning/
17.排查工作开展情况汇报(精选14篇)我市采取了多种工作方法,包括机动式摸排、专项排查、骨干民警驻守等多种方式,保证了工作的全面性和高效性。在摸排工作中,我市各警种部门协同合作,实现了信息共享和资源共享,发挥了整体合力的作用。 三、工作成果 截至目前,我市各警种部门已累计开展摸排工作近20次,摸排各类人员及场所超过万个,摸排移动设备万台次,摸https://www.ruiwen.com/gongzuohuibao/8216963.html
18.数字孪生数字孪生系列报道:15家单位22位作者研究成果,数字如图4所示,数据融合是指在实现车间物理融合与模型融合基础上,基于车间运行一致性原理,对物理车间现场实时数据、虚拟车间模型数据、仿真数据、车间服务系统数据等覆盖全要素、全流程、全业务的相关数据进行生成—建模—清洗—关联—聚类—挖掘—迭代—演化—融合等操作,有效真实刻画和反映车间运行状态、要素行为等各类动态演https://www.zhuanzhi.ai/document/d63863c6849a79c6a6f25d51bb522554
19.招聘航天科技集团一院期待你的加入澎湃号·媒体澎湃新闻4. 负责武器系统、发射系统、地面系统方案设计及武器系统均衡优化设计理论与方法研究; 5. 牵头开展发射平台一体化设计方法研究、方案论证和仿真集成验证; 6. 牵头开展系统效能评估方法、系统效能均衡优化方法研究和仿真验证、评估指标体系构建、评估软件集成开发与测试。 https://www.thepaper.cn/newsDetail_forward_15833677