编辑导读:随着“数智化”时代的到来,我们生活中的方方面面都离不开数据,而你真的了解数据吗?本文将为你重新解读数据的概念和价值,以及数据的价值是如何在“数智化”时代下一步一步得到运用与升华的;因内容颇多,笔者将分几期为大家进行讲解。
一、前言
二、数据挖掘(烹饪)
数据挖掘是对既定的“净数据”进行加工利用的过程,我们可以把它看作是烹饪加工的过程。
而数据挖掘是有一定规则和相应模型的,这一点我们也可以通过一个类比进行理解。
清洗后的高质量数据就像是“净菜”,而数据挖掘模型就像是各种“菜系”,我们知道,就算“净菜”材料一致,但菜系(数据挖掘模型)不同,最终得到的成品也是截然不同的!
下面是数据挖掘中较为常见的几个“菜系”(模型),下面我们配合模型对应的使用场景逐一阐述
总的来说,数据挖掘模型可以通过“监督模式”进行大致分类,分类为监督模型、非监督模型:
了解了数据挖掘的基本类别,下面我们来切入场景,看一看这些具体的算法模型如何帮助我们在现实场景中进行数据挖掘。
聚类分析——其中以K-Means算法最为典型。
原理与步骤:
使用场景:商业领域,聚类分析常结合(RMF模型)被用来进行客户细分;生科领域,聚类分析常被对动植物分类和基因进行分类,进行种群研究。
实操案例:运用K-Means算法对航空业客户进行价值衡量和细分。
1.参考RMF模型与数据集,自定义聚类类别
2.已确定5个聚类类别,套入代码进行聚类即可(代码如下)
3.针对结果进行可视化分析,并对每一个customer进行标识
回归分析——具体分为两大类(逻辑回归、线性回归)。
那么,有同学就会问了,逻辑回归和线性回归究竟有什么区别呢?
其实,两者属于同一个家族(广义线性模型),但它们面向的因变量类型不同,逻辑回归的因变量是分类变量(男女、职业…),线性回归的因变量是连续型数字变量(如1000人的工资,单位元)。
实操演练:最小二乘法OLS回归(属于线性回归的一种)——例如,下方,我们对工资与各项贷款余额的关系进行研究。
STEP1.导入数据后,画出散点图,观察数据大致趋势,并画拟合曲线:
综上,我们可以得到Y(工资)=0.0379X(各项贷款余额)-0.8295。
三、结语
本期,笔者通过一个“烹饪和菜系”的例子,带着大家了解了数据挖掘的常用模型,相信大家有所收获!
下期,笔者将在数据挖掘的基础上,讲解数据可视化,看看我们如何简单易懂的把数据故事讲懂、讲透!