数据分析VS数据挖掘,二者的异同&求职时的优势对比
本文作者:未明学院数据分析方向老师王老师
“孙子曰:凡兴师十万,出征千里,百姓之费,公家之奉,日费千金,内外骚动,怠于道路,不得操事者,七十万家。”《孙子兵法·用间篇》(2500年前)
数据分析:以计算机为基本工具,以大量数据为对象,以统计分析方法得出结论,供人们采取行动决策的过程。
数据挖掘:从大量的数据中通过算法搜索隐藏于其中信息的过程。
我们可以用战斗机来举例,理解数据分析和数据挖掘的异同。
下面这货是数据分析(早期战斗机)
下面这货是数据挖掘(现代战斗机)
1相似之处
换句话说两者都是为了完成战斗任务而产生的技术工具,就好比上图中的两种战斗机,它们使命都是为了对数据进行处理而后给出结论,指导决策。
2差异之处
从核心技术上讲,数据分析所依赖的技术条件和理论的复杂性上也要比数据挖掘低。
数据分析的主要步骤是明确分析目标、获取数据、数据清洗、描述性分析(可视化)、建模分析和撰写报告。
数据挖掘的基本步骤是明确分析目标、获取数据、数据清洗、特征工程、构建模型、模型调参和模型上线。
常用的数据挖掘算法有决策树(C4.5)、邻近分析(KNN)、贝叶斯算法(NB)、支持向量机(SVM)、期望最大化(EM)、关联规则(Apriori)、聚类分析(K-Means)、神经网络(BP)等。
概括起来说数据分析的核心是数据可视化图形和统计学分析,数据挖掘是图形和基本统计分析方法所不能表达的更深层次的数据关系。
举例来说,假设我们对某个淘宝电商数据做研究分析,我们可以通过数据分析,例如曲线图、条形图、饼图和回归分析等,分析出该商家的销售周期性规律、客户与成本构成、各种因素如何定量的影响销量等等。
此外,数据分析要求对所研究的行业有较深的理解,比如结合市场营销、心理、金融等进行综合分析,而数据挖掘则不需要过多的行业知识,更注重纯技术层面的数学与编程的结合。
这一点我们可以这样理解,两者在这方面的区别就好比一个金融分析师和一个数学家的区别,数学都是他们的基本工具,但是前者要通过金融学的原理和概念开展分析过程,解读分析结果,后者则是纯粹的研究各项数据之间的数学关系。
然而值得注意的是两者的界限正在变得越来越模糊,很多数据分析问题越来越多的使用数据挖掘算法,很多数据挖掘问题也越来越多的借助可视化表达。
3招聘需求
最后,我们再从招聘需求的角度来看,数据分析工作岗位数量上远大于数据挖掘(约10倍),薪资水平上数据分析岗位低于数据挖掘,而且数据分析岗位在工作领域和工作职能上有很多细分,但数据挖掘相对较少。
从岗位选择上讲,数据分析起点相对较低,入门较容易,薪资也相对理想,对于想要深化专业技能或者转行的人而言是一个不错的选择,并且以此为过渡向数据挖掘方向去发展;