“万物皆有联”,是大数据一个最重要的核心思维。
世界上的所有事物,都会受到其它事物的影响。
比如,产品的销量是受到各种因素的影响的,比如产品价格、品牌、质量、售后服务等等,这些因素都会对产品销量有着直接的影响。
又比如,产品的价格是受到供求状况的影响和制约的。供给增加,价格就相对下降;供给减少,价格就相对上升。
再比如,在生活中,我们经常会遇到下面的情况:
HR经常会问:影响员工离职的原因是什么?
销售人员会问:哪些要素会促使客户选择某产品?
营销人员会问:影响客户流失的关键因素有哪些?
销售主管会问:影响产品销量下降的原因有哪些?
……
因果关系
在过去,我们强调的是因果关系,即先有原因,再有结果。如果找不到原因,我们往往会觉得结果也不可信。比如产品价格下降,会导致销量上升,这个价格与销量之间应该是存在因果关系的,这从心理学和社会经济学上都能得到解释。
所以,我们把寻找影响目标变量的关键因素的过程,叫做影响因素分析。
但在,随着统计学的进一步发现,有些事物之间看起来并不存在因果关系:
银行业中信用较高的人,其发生交通事故的概率会较低;
乡村音乐的喜好者倾向于支持共和党,而摇滚歌迷倾向于支持民主党;
选举年,犯罪率会下降,但之后,犯罪率却会上升;
这些也能够体现事物之间的关系,但这些关系并不意味着因果。音乐爱好与政治倾向到底有什么关系?基本上很难找到合理的解释,也就是说“音乐”和“政治倾向”之间不一定存在因果关系,但这些在统计学上却是有意义的。
在不引起混淆的情况下,在本书中我们依然会使用影响因素分析的说法。
世界上的所有事物,都会受到其它事物的影响。HR经常会问:影响员工离职的关键原因是什么?是工资还是发展空间?销售人员会问:哪些要素会促使客户购买某产品?是价格还是质量?营销人员会问:影响客户流失的关键因素有哪些?是竞争还是服务等?产品设计人员:影响汽车产品受欢迎的关键功能有哪些?价格、还是动力等?
详细见下面的图形。
解释变量类型
被解释变量类型
方法
作用
数值型变量
类别型变量
方差分析
评估因素对目标变量是否有显著影响
列联分析
评估两个因素是否相互独立
举一个简单的例子:
从方法的适用场景,可知:
其余可采用类似的方法。
第一步:选择模型或自定义模式
这是建模的第一步,我们需要基于业务问题,来决定可以选择哪些可用的模型。
比如,如果要预测产品销量,则可以选择数值预测模型(比如回归模型,时序预测……);如果要预测员工是否离职,则可以选择分类模型(比如决策树、神经网络……)。
如果没有现成的模型可用,那么恭喜你,你可以自定义模型了。不过,一般情况下,自己定义模型不是那么容易的事情,没有深厚的数学基础和研究精神,自己思考出一个解决特定问题的数学模型基本上是幻想。所以,自定义模型的事情还是留给学校的教授们去研究和开发吧。当前绝大多数人所谓的建模,都只是选择一个已有的数学模型来工作而已。
一般情况,模型都有一个固定的模样和形式。但是,有些模型包含的范围较广,比如回归模型,其实不是某一个特定的模型,而是一类模型。我们知道,所谓的回归模型,其实就是自变量和因变量的一个函数关系式而已,如下表所示。因此,回归模型的选择,也就有了无限的可能性,回归模型的样子(或叫方程)可以是你能够想到的任何形式的回归方程。所以,从某种意义上看,你自己想出一个很少人见过的回归方程,也可以勉强算是自定义模型了哈!
那么,这么多可选的模型,到底选择哪个模型才好呢?我的答复是:天知道!
那么,是不是我们在选择模型时就得靠运气了?其实真有那么一点靠运气的成份,不过好在后续数学家们给我们提供了评估模型好坏的依据。现在,我们只能靠运气来选择某一个模型了。
第二步:训练模型
当模型选择好了以后,就到了训练模型这一步。
我们知道,之所以叫模型,这个模型大致的形状或模式是固定的,但模型中还会有一些不确定的东东在里面,这样模型才会有通用性,如果模型中所有的东西都固定死了,模型的通用性就没有了。模型中可以适当变化的部分,一般叫做参数,就比如前面回归模型中的α、β等参数。
所谓训练模型,其实就是要基于真实的业务数据来确定最合适的模型参数而已。模型训练好了,也就是意味着找到了最合适的参数。一旦找到最优参数,模型就基本可用了。当然,要找到最优的模型参数一般是比较困难的,怎样找?如何找?这就涉及到算法了。哦,一想到算法,我的头就开始痛了,都怪当年数学没有学好呀!
当然,最笨的办法,我们可以不断的尝试参数,来找到一个最好的参数值。一个一个试?这不是要试到生命结束?开玩笑啦,不可能去一个一个试的啦。反正有工具会帮你找到最优参数的,什么最优化算法中的什么梯度上升呀梯度下降呀,你就不用操心了呀,这些留给分析工具来实现就可以了!
第三步:评估模型
模型训练好以后,接下来就是评估模型。
所谓评估模型,就是决定一下模型的质量,判断模型是否有用。前面说过,模型的好坏是不能够单独评估的,一个模型的好坏是需要放在特定的业务场景下来评估的,也就是基于特定的数据集下才能知道哪个模型好与坏。
既然要评估一个模型的好坏,就应该有一些评价指标。比如,数值预测模型中,评价模型质量的常用指标有:平均误差率、判定系数R2,等等;评估分类预测模型质量的常用指标(如下图所示)有:正确率、查全率、查准率、ROC曲线和AUC值等等。对于分类预测模型,一般要求正确率和查全率等越大越好,最好都接近100%,表示模型质量好,无误判。
在真实的业务场景中,评估指标是基于测试集的,而不是训练集。所以,在建模时,一般要将原始数据集分成两部分,一部分用于训练模型,叫训练集;另一部分用于评估模型,叫测试集或验证集。
有的人可能会想,为什么评估模型要用两个不同的数据集,直接用一个训练集不就可以了?理论上是不行的,因为模型是基于训练集构建起来的,所以在理论上模型在训练集上肯定有较好的效果。但是,后来数学家们发现,在训练集上有较好预测效果的模型,在真实的业务应用场景下其预测效果不一定好(这种现象称之为过拟合)。所以,将训练集和测试集分开来,一个用于训练模型,一个用于评估模型,这样可以提前发现模型是不是存在过拟合。
如果发现在训练集和测试集上的预测效果差不多,就表示模型质量尚好,应该可以直接使用了。如果发现训练集和测试集上的预测效果相差太远,就说明模型还有优化的余地。
当然,如果只想验证一次就想准确评估出模型的好坏,好像是不合适的。所以,建议采用交叉验证的方式来进行多次评估,以找到准确的模型误差。
其实,模型的评估是分开在两个业务场景中的:
一、是基于过去发生的业务数据进行验证,即测试集。本来,模型的构建就是基于过去的数据集的构建的。
二、是基于真实的业务场景数据进行验证。即,在应用模型步骤中检验模型的真实应用结果。
第四步:应用模型
如果评估模型质量在可接受的范围内,而且没有出现过拟合,于是就可以开始应用模型了。
这一步,就需要将可用的模型开发出来,并部署在数据分析系统中,然后可以形成数据分析的模板和可视化的分析结果,以便实现自动化的数据分析报告。
应用模型,就是将模型应用于真实的业务场景。构建模型的目的,就是要用于解决工作中的业务问题的,比如预测客户行为,比如划分客户群,等等。
当然,应用模型过程中,还需要收集业务预测结果与真实的业务结果,以检验模型在真实的业务场景中的效果,同时用于后续模型的优化。
第五步:优化模型
优化模型,一般发生在两种情况下:
一、是在评估模型中,如果发现模型欠拟合,或者过拟合,说明这个模型待优化。
二、是在真实应用场景中,定期进行优化,或者当发现模型在真实的业务场景中效果不好时,也要启动优化。
如果在评估模型时,发现模型欠拟合(即效果不佳)或者过拟合,则模型不可用,需要优化模型。所谓的模型优化,可以有以下几种情况:
1)重新选择一个新的模型;
2)模型中增加新的考虑因素;
3)尝试调整模型中的阈值到最优;
4)尝试对原始数据进行更多的预处理,比如派生新变量。
不同的模型,其模型优化的具体做法也不一样。比如回归模型的优化,你可能要考虑异常数据对模型的影响,也要进行非线性和共线性的检验;再比如说分类模型的优化,主要是一些阈值的调整,以实现精准性与通用性的均衡。当然,也可以采用元算法来优化模型,就是通过训练多个弱模型,来构建一个强模型(即三个臭皮匠,顶上一个诸葛亮)来实现模型的最佳效果。
实际上,模型优化不仅仅包含了对模型本身的优化,还包含了对原始数据的处理优化,如果数据能够得到有效的预处理,可以在某种程度上降低对模型的要求。所以,当你发现你尝试的所有模型效果都不太好的时候,别忘记了,这有可能是你的数据集没有得到有效的预处理,没有找到合适的关键因素(自变量)。
不可能有一个模型适用于所有业务场景,也不太可能有一个固有的模型就适用于你的业务场景。好模型都是优化出来的!
最后语
正如数据挖掘标准流程一样,构建模型的这五个步骤,并不是单向的,而是一个循环的过程。当发现模型不佳时,就需要优化,就有可能回到最开始的地方重新开始思考。即使模型可用了,也需要定期对模型进行维护和优化,以便让模型能够继续适用新的业务场景。
大数据,是应用导向的。它以商业需求为出发点,然后借助数据的手段,来发现商业活动的本质,进而形成商业活动的决策和建议,以实现最终的商业目的。
所以,在大数据领域,要想让数据产生价值,涉及到三个关键环节:
(一)将商业问题转化数据可分析问题。
(二)对数据进行有效的处理和分析,提取数据中蕴含的业务信息。
(三)基于业务信息,形成最终的业务策略及应用。
这三个环节,一环扣一环,缺一不可。要想让数据产生价值,要想让大数据服务于企业的商业行为,则需要基于这三个环节,重新梳理企业的整个IT支撑系统。
为了方便描述,我把这三个环节简化为如下的几句话:业务数据化、数据信息化、信息策略化。
简单地说,业务数据化,就是将业务问题转化为数据问题。
在数学家的眼里,世界的本质是数学的。同样,在数据分析师的眼里,任何一个商业问题,都可转化为一个数学问题,或者是一个数据问题,一个数据可分析的问题。
万物皆可量化
这源于一个最朴素的数据价值观:万物皆可量化。
比如,要想弄明白一个人的兴趣和爱好,就可以收集他在百度上搜索过什么关键词,在今日头条上阅读过哪类资讯,浏览过哪些网站等这些数据。
要想了解客户的消费能力,则可以查看他的存款、每月的工资收入,或者他买过的产品的价格档次等数据。
同样,要知道他去了哪里,则收集到车票机票数据、酒店住宿和景点门票数据,最直接的是手机GPS数据,都能够直接体现他的位置信息,等等。
正因如此,我们就可以通过数据来间接地描述客观事物。
万物皆数据化
同样地,大多数的商业问题,都可以定义为数据可分析的问题。
比如,用户购买行为分析的问题,转化为数据的问题,其实就是对客户的浏览数据、搜索数据、点击数据和交易数据等进行统计分析,以查看其中的行为规律和行为模式;
市场精准营销的问题,简单地可看成是一个分类预测的问题,即判断一个客户会不会购买公司的产品,会购买公司的哪一款产品,以及大概在什么时候会有购买需求,等等;
银行的风险控制和风险识别问题,实际上是判断一个人是否会拖欠贷款的预测问题;
产品功能设计问题,也可以是一个影响因素分析的问题,即哪些功能和特征会对销量产生比较大的影响,这些有显著影响的功用和特征是需要在设计时重点考虑的;
当然,一个商业问题也可以转化为几个不同模式的数据问题,不同的数据问题得到的业务模式和业务信息也是不相同的。
一句话,万事皆可数据化。
业务数据化,这一环节是大数据的开始,它是整个大数据价值实现的起点,没有商业问题的指引,后续的环节(数据分析与数据挖掘)将会显得盲目而毫无意义。
数据信息化,简单地说,就是将数据变成信息,即要提取数据中蕴含的业务信息。
数据信息化,这一环节是大数据的核心,它是整个大数据价值实现的灵魂,要是无法对数据进行有效地分析和挖掘,就无法提取到有用的业务信息。
那么,数据中究竟包含了哪些业务信息呢?我认为,大数据至少可以用来发现如下的业务信息:
1)业务的运行规律和特征
2)业务的变化和问题
3)业务运行的影响因素
4)业务在未来的发展趋势
下面我将为大家一一介绍如何提取业务的这些信息。
探索规律
哲学告诉我们,任何事物都是发展的,发展必定是有规律的,即万事皆有规律。
任何客观事物,不管是企业的运营管理,还是市场营销行为,都是有规律的。而大数据,则是探索这种规律的有效的工具!
发现变化
世界是物质的,而物质是运动的,运动是事物的本质。
一切事物都在运动变化,这些运动变化是可以被探知的。
探索关系
唯物辩证法认为,世界上的一切事物都处在普遍联系中,没有任何一个事物是孤立地存在的。联系是指事物之间以及事物内部诸要素之间相互连结、相互依赖、相互影响、相互作用、相互转化等相互关系。
一句话,万物皆有联系,而大数据成为探索事物间相互联系的一种有效的手段。
预测未来
大家都知道,大数据分析的是已经发生过的数据,那么过去的数据已经发生还有什么用呢?大数据只是借过去的数据来探索事物的规律和特征,其目的是为了探索事物在未来的发展变化或发展趋势,因此,大数据的目的是预测。基于对事物的预测结果,用来作出相应的策略调整。如果预测的结果不是我们想要的,则需要调整相应的策略,使得事物朝着我们想要的方向去发展。
所以,大数据描述的是过去,表达的却是未来!
即使数据分析方法用得再熟练,数据挖掘的模型再漂亮,如果没有形成最终的业务建议,无法落地成可被执行的业务策略,都是空谈。
信息策略化,指的是基于对业务信息的理解,进而提出相应的业务策略和业务建议。
当然,要把具体的信息形成有效的策略,这没有一个统一标准,只能是就事论事。
这是大数据产生价值必经的三个环节:业务数据化,数据信息化,信息策略化。
没有把业务定义成数据可分析问题,数据分析就是盲目的缺乏指导;没有有效的数据分析,就无法提取出有价值的业务信息,整个大数据就没有意义;业务信息无法形成最终的业务策略和业务建议,大数据的价值也就无法落地。
尽管回归分析在预测时比较准确,但是,实现比较复杂,因为它要求能够找到所有或大部分影响事物的关键因素,这样才能够建立回归模型进行预测。
但是,在真实的场景中,要找出影响事物的关键因素是非常困难的,比如,大多数社会经济指标,如国内生产总值(GDP)、消费价格指数(CPI)、上证综合指数等等,要找出影响因素来建模,基本上不太可能,所以这种场景下,采用回归分析难以实现。
比如左上第一个序列,有着明显的季节性波动;右上第二个序列,有整体下降的趋势;左下第三个序列,呈现上升趋势而且具有季节波动;右下第四个序列,没有明显的趋势也没有季节波动。
1)趋势类分析:移动平均、指数平滑等;
2)季节波动类分析:温特斯方法、基于回归的方法;
3)平稳序列类分析:自回归滑动平均模型。
每一大类中,都会有多种分析方法和模型。
大数据之所以成为第四范式,源于它建立在以下三个哲学思想之上。
唯物主义者说,世界是物质的,物质是运动的,运动是有规律的,规律是可以被认识的。而大数据,就是建立在探索世界规律基础上的,这是大数据存在的哲学基础。也有人说,不确定性是宇宙的本质!从宇宙大爆炸那一刻起,就从混沌走向混乱,从秩序走向不确定性。然而,随着科学的不断发展,大量的不确定的事物正在慢慢变得确定。
自然界中,大到天体、星球的运行,小到分子、原子的运动,都遵循其固有的规律。这些规律看起来极其复杂,实则极其简洁,以至于牛顿仅用几个定律和公式就描述清楚,科学家们用一只笔就能够计算出遥远星系中某个星球的运行轨迹。
不仅是自然界,人类社会的发展也是有规律。人类社会从原始社会开始,经历奴隶社会、封建社会,进而到达资本主义社会和社会主义社会,看起来很混乱,然而社会的发展也是有规律的。比如,马克思对大量复杂的社会现象进行抽象分析,认识到生产关系一定要适应生产力发展是推动人类社会发展的根本规律。
在生活中,人类的行为也同样存在着各种规律,比如常说的“二八定律”,“光环效应”,“破窗效应”,“马太效应”,等等,都是对人类行为规律的总结。所以,大到国家治理/经济发展,中到企业管理/市场营销,小到个人行为(包括购买行为、消费习惯)等等,都是有章可循的。而企业管理、市场营销等等,不外乎就是想发现这些人类行为的规律,并且利用这些规律来达到某种商业目的。
可见,万事万物的运行和发展都是有其固有的发展规律的。整个宇宙体系,所有的星球运行、所有的事物发展、所有的信息传递、所有的能量传递、所有的时空变化、所有的一切,都遵守着的某种基本规律。这种规律也许已经被发现,也许还没有发现却始终在影响着事物的发展变化。
那么,有没有大数据无法应用的领域呢?当然有!曾经,有一个学员问我:能不能用大数据来预测双色球或彩票?我答到:不能!因为彩票不具有规律性,或者目前还没有发现有规律性,所以,无法用大数据来进行探索或预测。
小数据时代多数是从单一指标、单一类别来分析事物,所以其结果不一定准确有用;而大数据,强调要从多个维度对数据进行交叉分析,来全面地观察事物的变化,进而探索事物的内在规律。所以,大数据区别在于小数据最本质的,不是数据量的大,而是分析维度要多得多。
几乎从未有过一个人在任何单一维度很强就能够成为牛人,而是因为他理解世界的角度多才成为大咖,这就是所谓的“多元思维模型”的价值,这也是大数据区别于小数据的价值所在。大数据,更强调数据的多维性!强调分析问题的多维性!大数据在体现事物规律的全面性方面,是小数据无法比拟的。
由于大数据具有多维和全面的特点,所以,它可以从很多看似支离破碎的信息中复原一个事物的全貌,并进而能够预测或判断出尚未观察到的事物的现象。比如,爱因斯坦在(1916年)广义相对论中预言了引力波的存在,即万有引力和引力波都是时空弯曲的结果,但是,这种引力波在一百年后(2015年)才被证实。
世界上的事物是普遍联系的。普遍联系,是指事物或现象之间以及事物内部各要素之间是相互依赖、相互影响、相互作用、相互制约、相互转化等相互关系。
世界上的每一个事物或现象都与其它事物或现象相互联系着,没有绝对孤立的事物。通俗地说,任何事物都会受到其他因素的影响,受其他因素影响越大,事物的变化也就越大;受其他因素影响越小,事物的变化也就越小。
比如,美国华尔街一家基金公司,就利用社交网络上人们的情绪指数与股票指数的同步性,来预测基金的涨跌,进而指导基金的买卖。