机器学习机器学习的道法术势器

“道、法、术、器”出于老子的《道德经》,后人又加了一个“势”,并且也有了不同的排列。很多人习惯用“道、法、术、势、器”的顺序,原因很简单:道以明向、法以立本、术以立策、势以立人、器以成事。所谓道不易,法简易,术变易。

下面我们就从道、法、术、势、器这五个层面上看看究竟什么是机器学习。

1、道以明向

道,是放在最上层的东西,是战略思想,是指引,是客观存在的东西。说白了就是不管你愿意不愿意、知道不知道,它就在那里。虽然人们对客观现象的认识不断加强,但背后的本质从来不曾改变,这就是所谓的真理吧。所谓以不变应万变,就是这个道理。

“道”解决的是什么是正确的事,“法、术、势、器”解决的是如何将事情做正确。很多时候,判断什么是正确的事最为困难。

举个例子,机器学习工程师可以分成三个档次:

对于机器学习来说,里面的道包含如下几个方面:

(1)定义

机器学习这个词是让人疑惑的,首先它是英文名称MachineLearning的直译,在计算界Machine一般指计算机。这个名字使用了拟人的手法,说明了这门技术是让机器“学习”的技术。但是计算机是死的,怎么可能像人类一样“学习”呢?

从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。

(2)范围

有了定义,再来看看机器学习的范围。

实际上,机器学习跟模式识别,统计学习,数据挖掘,计算机视觉,语音识别,自然语言处理等领域有着很深的联系。

从范围上来说,机器学习跟模式识别,统计学习,数据挖掘是类似的,同时,机器学习与其他领域的处理技术的结合,形成了计算机视觉、语音识别、自然语言处理等交叉学科。因此,一般说数据挖掘时,可以等同于说机器学习。同时,我们平常所说的机器学习应用,应该是通用的,不仅仅局限在结构化数据,还有图像,音频等应用。

(3)历史

在20世纪70年代,多种学习技术得到了初步发展,例如以决策理论为基础的统计学习技术和强化学习技术等。20多年后红极一时的统计学习理论的一些重要结果也是在这个时期取得的。在这一时期,基于逻辑或图结构表示的符号学习技术也开始出现。20世纪80年代是机器学习成为一个独立的学科领域并开始快速发展、各种机器学习技术百花齐放的时期。

20世纪90年代中期,统计学习粉墨登场并迅速独占鳌头。其实早在20世纪60~70年代就已经有统计学习方面的研究工作,统计学习理论在那个时期也已经打下了基础,例如,早在1963年就提出了“支持向量”的概念,并随后在1968年提出了VC维,在1974年提出了结构风险最小化原则等。但直到90年代中期,统计学习才开始成为机器学习的主流技术。在支持向量机被普遍接受后,支持向量机中用到的核(Kernel)技巧几乎被人们用到了机器学习的每一个角落,“核方法”也逐渐成为机器学习的一种基本技巧。

现在,计算机界戏称机器学习为“全能学科”,它无所不在。除了有其自身的学科体系外,机器学习还有两个重要的辐射功能。一是为应用学科提供解决问题的方法与途径。对于一个应用学科来说,机器学习的目的就是把一些难懂的数学翻译成让工程师能够写出程序的伪代码。二是为一些传统学科,比如统计、理论计算机科学、运筹优化等找到新的研究问题。因此,大多数世界著名大学的计算机学科把机器学习或人工智能列为核心方向,扩大机器学习领域的教师规模,而且至少要保持两三个机器学习研究方向具有一流竞争力。

(4)启示

机器学习的发展历程告诉我们:发展一个学科需要一个务实的态度。时髦的概念和名字无疑对学科的普及有一定的推动作用,但学科的根本还是所研究的问题、方法、技术和支撑的基础等,以及为社会产生的价值。

2、法以立本

法是实现道的最根本的战略、方法、指导方针、思路。具体来说就是规则、流程、步骤,是将“道”从理论层面落实到实践层面的关键。

机器学习的流程与步骤可以归纳如下:

“训练”与“预测”是机器学习的两个部分,“模型”则是过程的中间输出结果,“训练”产生“模型”,“模型”指导“预测”。

让我们把机器学习的过程与人类对历史经验归纳的过程做个比对。

人类在成长、生活过程中积累了很多的历史与经验。人类定期地对这些经验进行“归纳”,获得了生活的“规律”。当人类遇到未知的问题或者需要对未来进行“推测”的时候,人类使用这些“规律”,对未知问题与未来进行“推测”,从而指导自己的生活和工作。

这也可以联想到人类为什么要学习历史,历史实际上是人类过往经验的总结。有句话说得很好,“历史往往不一样,但历史总是惊人的相似”。通过学习历史,我们从历史中归纳出人生与国家的规律,从而指导我们的下一步工作,这是具有莫大价值的。当代一些人忽视了历史的本来价值,而是把其作为一种宣扬功绩的手段,这其实是对历史真实价值的一种误用。

在大数据时代,机器学习领域还有一个热点是把系统与算法结合,设计大规模分布式的机器学习算法与系统,使得机器学习算法可以在多处理器和多机器的集群环境下作业,处理更大量级的数据。毫无疑问,AlphaGo是近年来机器学习、系统和高效搜索算法结合成功的典范,谷歌AlphaGo成功给机器学习的“法”带来了新的启示:

谷歌AlphaGo的成功,告诉我们结合机器学习与传统符号搜索方法可以解决人工智能里相对复杂的推理问题,把机器学习与高效的搜索方法的结合开辟了机器学习的新“法”。

3、术以立策

术是方式与技巧,是策略,是具体的方法。机器学习的术就是我们目前讲的最多的内容。

总的来说,按照训练的数据有无标签,可以将机器学习算法分为监督学习算法和无监督学习算法,同时还有一类推荐算法较为特殊,既不属于监督学习,也不属于非监督学习,是单独的一类。

下面简单看看这些方法的内涵思想。

(1)回归算法

在大部分机器学习课程中,回归算法都是介绍的第一个算法。原因有两个:回归算法比较简单,介绍它可以让人平滑地从统计学迁移到机器学习中;回归算法是后面若干强大算法的基石,如果不理解回归算法,无法学习那些强大的算法。回归算法有两个重要的子类:即线性回归和逻辑回归。

线性回归就是我们前面说过的房价求解问题。如何拟合出一条直线最佳匹配我所有的数据?一般使用“最小二乘法”来求解。“最小二乘法”的思想是这样的,假设我们拟合出的直线代表数据的真实值,而观测到的数据代表拥有误差的值。为了尽可能减小误差的影响,需要求解一条直线使所有误差的平方和最小。最小二乘法将最优问题转化为求函数极值问题。函数极值在数学上我们一般会采用求导数为0的方法。但这种做法并不适合计算机,可能求解不出来,也可能计算量太大。

逻辑回归算法划出的分类线基本都是线性的,这意味着当两类之间的界线不是线性时,逻辑回归的表达能力就不足。下面的两个算法是机器学习界最强大且重要的算法,都可以拟合出非线性的分类线。

(2)神经网络

神经网络(也称之为人工神经网络,ANN)算法是80年代机器学习界非常流行的算法,不过在90年代中途衰落。现在,携着“深度学习”之势,神经网络重装归来,重新成为最强大的机器学习算法之一。

神经网络的诞生起源于对大脑工作机理的研究。早期生物界学者们使用神经网络来模拟大脑。机器学习的学者们使用神经网络进行机器学习的实验,发现在视觉与语音的识别上效果都相当好。在BP算法(加速神经网络训练过程的数值算法)诞生以后,神经网络的发展进入了一个热潮。BP算法的发明人之一是机器学习大牛GeoffreyHinton。神经网络的学习机理具体说来就是分解与整合。

(3)SVM(支持向量机)

支持向量机算法是诞生于统计学习界,同时在机器学习界大放光彩的经典算法。支持向量机算法从某种意义上来说是逻辑回归算法的强化:通过给予逻辑回归算法更严格的优化条件,支持向量机算法可以获得比逻辑回归更好的分类界线。但是如果没有某类函数技术,则支持向量机算法最多算是一种更好的线性分类技术。

但是,通过跟高斯“核”的结合,支持向量机可以表达出非常复杂的分类界线,从而达成很好的的分类效果。“核”事实上就是一种特殊的函数,最典型的特征就是可以将低维的空间映射到高维的空间。

支持向量机是一种数学成分很浓的机器学习算法(相对的,神经网络则有生物科学成分)。在算法的核心步骤中,有一步证明,即将数据从低维映射到高维不会带来最后计算复杂性的提升。于是,通过支持向量机算法,既可以保持计算效率,又可以获得非常好的分类效果。因此支持向量机在90年代后期一直占据着机器学习中最核心的地位,基本取代了神经网络算法。直到现在神经网络借着深度学习重新兴起,两者之间才又发生了微妙的平衡转变。

(4)聚类算法

前面的算法中的一个显著特征就是训练数据中包含了标签,训练出的模型可以对其他未知数据预测标签。在下面的算法中,训练数据都是不含标签的,而算法的目的则是通过训练,推测出这些数据的标签。这类算法有一个统称,即无监督算法。无监督算法中最典型的代表就是聚类算法。

让我们还是拿一个二维的数据来说,某一个数据包含两个特征。我希望通过聚类算法,给他们中不同的种类打上标签,我该怎么做呢?简单来说,聚类算法就是计算种群中的距离,根据距离的远近将数据划分为多个族群。聚类算法中最典型的代表就是K-Means算法。

(5)降维算法

降维算法也是一种无监督学习算法,其主要特征是将数据从高维降低到低维层次。在这里,维度其实表示的是数据的特征量的大小,例如,房价包含房子的长、宽、面积与房间数量四个特征,也就是维度为4维的数据。可以看出来,长与宽事实上与面积表示的信息重叠了,例如面积=长×宽。通过降维算法我们就可以去除冗余信息,将特征减少为面积与房间数量两个特征,即从4维的数据压缩到2维。于是我们将数据从高维降低到低维,不仅利于表示,同时在计算上也能带来加速。

刚才说的降维过程中减少的维度属于肉眼可视的层次,同时压缩也不会带来信息的损失(因为信息冗余了)。如果肉眼不可视,或者没有冗余的特征,降维算法也能工作,不过这样会带来一些信息的损失。但是,降维算法可以从数学上证明,从高维压缩到的低维中最大程度地保留了数据的信息。因此,使用降维算法仍然有很多的好处。

降维算法的主要作用是压缩数据与提升机器学习其他算法的效率。通过降维算法,可以将具有几千个特征的数据压缩至若干个特征。另外,降维算法的另一个好处是数据的可视化,例如将5维的数据压缩至2维,然后可以用二维平面来可视。降维算法的主要代表是PCA算法(主成分分析算法)。

(6)推荐算法

推荐算法是目前业界非常火的一种算法,在电商界,如亚马逊,天猫,京东等得到了广泛的运用。推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西,从而增加购买率,提升效益。推荐算法有两个主要的类别:

两类推荐都有各自的优缺点,在一般的电商应用中,一般是两类混合使用。推荐算法中最有名的算法就是协同过滤算法。

(7)其他

除了以上算法之外,机器学习界还有其他的如高斯判别,朴素贝叶斯,决策树等等算法。但是上面列的六个算法是使用最多,影响最广,种类最全的典型。机器学习界的一个特色就是算法众多,发展百花齐放。

4、势以立人

人工智能是机器学习的父类。深度学习则是机器学习的子类。如果把三者的关系用图来表明的话,则是下图:

总结起来,人工智能的发展经历了如下若干阶段,从早期的逻辑推理,到中期的专家系统,这些科研进步确实使我们离机器的智能有点接近了,但还有一大段距离。直到机器学习诞生以后,人工智能界感觉终于找对了方向。基于机器学习的图像识别和语音识别在某些垂直领域达到了跟人相媲美的程度。机器学习使人类第一次如此接近人工智能的梦想。

而另一方面,机器学习近年来发展产生了一个新的方向,即“深度学习”。虽然深度学习这四字听起来颇为高大上,但其理念却非常简单,就是传统的神经网络发展到了多隐藏层的情况。

通过这样的发现,不仅解决了神经网络在计算上的难度,同时也说明了深层神经网络在学习上的优异性。从此,神经网络重新成为了机器学习界中的主流强大学习技术。同时,具有多个隐藏层的神经网络被称为深度神经网络,基于深度神经网络的学习研究称之为深度学习。

深度学习属于机器学习的子类。基于深度学习的发展极大的促进了机器学习的地位提高,更进一步地,推动了业界对机器学习父类人工智能梦想的再次重视。

5、器以成事

器是让工作变得简单的工具。工具的作用是提高效率,把复杂问题简单化。就像工业时代的各种机器,极大的提高了人们的生产效率。今天,随着人工智能的炙手可热,机器学习本身就已经被作为一个大杀器而获得了普遍的认识。

为什么要使用工具?因为机器学习工具使得应用机器学习更快,更简单,更有趣。

机器学习工具有许多。谷歌搜索到的结果就足以让你头晕目眩了。

一种有用的机器学习工具分类方式是将它们分成平台和库。平台为你运行一个项目所需的全部功能,而库只为你完成一个项目提供部分功能。这么区分并不完美,因为有些机器学习平台同时也是库,有些库也提供了图形化用户界面。然而,这提供了很好的比较方式,从特定目的工具中区分具体使用情形。

(1)机器学习平台

机器学习平台提供了从头到尾完成一个机器学习项目的功能。也就是,数据分析,数据准备,建模和算法评估及选择。机器学习平台的特征有:

以下是一些机器学习平台:

(2)机器学习库

机器学习库提供了完成一个机器学习项目部分模块的功能。比如,一个库可能提供了一系列建模算法。机器学习库的特征有:

以下是一些机器学习库:

另一种区分机器学习工具的方式是根据它们提供的界面。

(3)图形化用户界面

机器学习工具提供了图形用户界面,包括窗口,得分,点击,专注于可视化。图形化用户界面的好处有:

以下是一些有图形化界面的机器学习工具:

(4)命令行界面

机器学习工具提供了命令行界面,包括命令行程序,命令行参数,注重于输入和输出。命令行用户界面的好处有:

以下是一些提供命令行界面的机器学习工具:

(5)应用程序编程接口

机器学习工具提供了应用程序编程接口,可以让你自由决定在你的程序中使用什么元素以及如何使用。应用程序编程接口的好处有:

以下是一些带有应用程序编程接口的机器学习工具:

比较机器学习工具最后一个方法是这个工具是本地工具还是远程工具。本地工具是你下载并安装的,在本地使用,而远程工具运行在第三方服务器上。

(6)本地工具

本地工具是下载、安装并运行在本地环境的。包括如下特点:

以下是一些本地工具:

(7)远程工具

远程工具托管在服务器上,并且可以从本地环境调用。这些工具通常被称为将机器学习作为服务(MLaaS)。其特点包括:

以下是一些远程工具:

当然,实际上还有很多很多非常著名以及不那么著名的例子,学无止境了。

6、总结

参考文献:

1.道以明向

道,是放在最上层的东西,不管是什么学问。对于数据挖掘来说,道就是数据挖掘的定义、特点和任务三者的结合。

1.1数据挖掘的定义

1996年,Fayaad等人对数据挖掘定义进行了详细阐述,将数据挖掘看作是KDD的一个过程。定义数据挖掘是一个确定数据中有效的、新颖的、潜在可用的且最终可理解的模式的重要过程。随后,著名的数据挖掘研究学者JiaweiHan也给出了自己的定义:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用信息和知识的过程。

综上,可以认为:数据挖掘是通过分析每个数据从大量数据中寻找其规律的技术。

数据隐含价值,技术发现价值,应用实现价值。数据、技术和应用是大数据的三个内涵。大数据环境下,数据挖掘的对象(即数据)有了新的特征,这决定了大数据挖掘将被赋予新的含义,相应的,也产生了新的挖掘算法和模型。

因此,大数据挖掘可以定义为:从大数据集中寻找其规律的技术。将“大数据集”强调为大数据挖掘的对象。

需要注意的是,在大数据挖掘中,“寻找”变得更具挑战性,因为,大数据具有高价值、低密度的特性,即规律不是显而易见的,而是隐含在大数据之中,需要用新的方法和技术去寻找。同样的,对挖掘到的“规律”没有做任何描述或限制,大数据的价值是更加难以估量的,需要在大数据的应用中去实现。

1.2数据挖掘的特点

“大量”、“多源、异质、复杂”、“动态”、“价值高但价值密度低”的数据特征决定了当前的数据挖掘技术具有如下技术特征:

(1)“大量的”与并行分布式数据挖掘算法研究

(2)“多源的”与不确定数据挖掘算法研究

数据挖掘一直以来重视数据质量。数据的质量决定数据挖掘结果的价值。然而,大数据环境下,数据获取能力逐渐高于数据分析能力。数据获取过程中数据缺失、含有噪音难以避免,更值得注意的是,数据获取的目标也与以前不同,并不是针对某个特定应用或特定任务收集的。数据填充、补全是困难的。因此,大数据挖掘技术要有更强地处理不确定、不完整数据集的能力。

(3)“复杂的”与非结构化、超高维、稀疏数据挖掘算法研究

超高维特征分析的需求使得深度学习技术成为热点。数据挖掘技术一直将统计学习、机器学习、人工智能等算法和技术与数据库技术结合应用,发现数据中的规律。大数据环境下,深度学习与大数据的结合,也将成为寻找大数据其中规律的重要支撑技术之一。

(4)“动态的、演变的”与实时、增量数据挖掘算法研究

(5)“高价值低密度”与聚类、不平衡分类、异常挖掘算法研究

大数据环境下,产生了新的数据挖掘任务。其中,特异群组是一类低密度高价值的数据,特异群组是指在众多行为对象中,少数对象群体具有一定数量的相同或相似的行为模式,表现出相异于大多数对象而形成异常的组群。特异群组挖掘问题既不是异常点挖掘(只发现孤立点)问题也不是聚类问题(将大部分数据分组),是一类全新的问题。

1.3数据挖掘的任务

下面给出典型数据挖掘任务的简要描述。

(1)关联分析:寻找数据项之间的关联关系。例如:我们可以通过对交易数据的分析可能得出“86%买‘啤酒’的人同时也买‘尿布’”这样一条“啤酒”和“尿布”之间的关联规则。

(3)分类分析:找出描述并区分数据类的模型(可以是显式或隐式),以便能够使用模型预测给定数据所属的数据类。例如:P2P网贷平台可以将贷款人的信用等级分类为:AA(信用水平最高级,代表极低的违约率)、A、B、C、D、E、HR(低信用水平,潜在的违约风险最高级)。分类分析通过对这些数据及其类标签的分析给出一个信用等级的显式模型,例如:“AA级贷款者是年收入在××元到×××元,年龄在×××至×××,居住面积达×××平方米以上的人”。这样,对于一个新提交信用审核申请的贷款人,就可以根据他的特征预测其信用等级。

(4)异常分析:一个数据集中往往包含一些特别的数据,其行为和模式与一般的数据不同,这些数据称为“异常”。对“异常”数据的分析称为“异常分析”。例如,在对银行客户信用卡刷卡记录数据进行监测的过程中,发现某一笔交易明显不同于以往的消费模式。

(6)特异群组分析:发现数据对象集中明显不同于大部分数据对象(不具有相似性)的数据对象(称为特异对象)的过程。一个数据集中大部分数据对象不相似,而每个特异群组中的对象是相似的。这是一种大数据环境下的新型数据挖掘任务。

2.法以立本

法就是数据挖掘的流程与标准化步骤。

数据挖掘不是一个从数据到模型、再到结果的简单过程,而是一个循环往复逐步求精的过程。该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识。在实施数据挖掘之前,先决定采取什么样的步骤,每一步都做什么,确定目标和实施方案。一般地,数据挖掘在具体应用时,大体分为以下几个阶段:

数据挖掘全过程的几个步骤可以进一步归纳为3个步骤:数据挖掘预处理、数据挖掘和数据挖掘后处理。数据挖掘质量的好坏有两个影响因素:一是所采用的数据挖掘技术的有效性;二是用于挖掘的数据的质量和数量。

整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数据不太好,或使用的挖掘技术产生不了期望的结果,这时用户需要重复先前的过程,甚至从头开始。

以上的数据挖掘过程模型主要是从数据挖掘技术角度来阐述的,还可以从另外一个角度来叙述数据挖掘与具体业务之间紧密联系,即数据挖掘的建模标准──CRISP-DM。

CRISP-DM(Cross-IndustryStandardProcessforDataMining)意为“跨行业数据挖掘的标准化过程”。在CRISP-DM规划中,数据挖掘过程中每个必要的步骤均被标准化,它主要倡导的理念是:提倡标准过程行业内共享;建立应用与背景无关的标准过程;建立与所用数据挖掘工具无关的标准过程;建立具有普遍指导意义的标准化过程;从方法学的角度强调实施数据挖掘项目的方法和步骤。具体的,CRISP-DM分为以下6个步骤:

3.术以立策

术就是数据挖掘的具体方法。

(1)关联分析

关联分析的目的是找到用户感兴趣的关联规则,辅助用户管理决策。频繁模式挖掘是关联分析的关键步骤,比较经典的频繁模式挖掘算法包括:Apriori算法和FP-Growth算法。

(2)聚类分析

聚类分析是根据最大化类内的相似性、最小化类间的相似性的原则将数据对象聚类或分组,所形成的每个簇可以看作一个数据对象类,用显示或隐式的方法描述它们。

相似度用于判断两个样本之间的差异程度,它是定义一个簇的基础,聚类分析过程的质量取决于对相似度度量标准的选择。通常使用“距离”来描述数据之间的相似程度。常用的距离度量标准有欧几里得距离、Minkowski距离等。常用的聚类算法包括:基于层次的最领近算法、BIRCH算法、k-medoids算法、基于密度的OPTICS算法等。

(3)分类分析

“啤酒尿布”的故事启发销售商采用关联分析了解客户的购买习惯,进而选择更优的营销方案,但仅由这种技术来制定营销方案任然是不够的,销售商还要考虑需要对哪些客户采用哪种营销方案,这需要分类技术,将诸如客户或营销方案等分门别类,为各类客户提供个性化方案。分类技术已经在各个行业得到了广泛应用。例如,在医疗诊断中,用分类预测申请者的信用等级等。

分类是根据已有的数据样本集的特点建立一个能够把数据集中的数据项映射到某一个给定类别的分类函数或构造一个分类模型(或分类器classifier)的技术,从而对未知类别的样本赋予类别,以更好的辅助决策。

分类器的构造分为模型训练阶段(分析输入数据,通过在训练数据集中的数据表现出来的特性,为每一个类找到一种准确的描述或模型)和测试阶段(使用模型分类的阶段,利用类别的描述或模型对测试数据进行分类)。

常见的分类模型的构造方法有决策树方法、统计方法、神经网络方法等。不同分类模型有不同特点,数据样本分类的结果也不同,评价分类模型的尺度主要包括:预测准确度、计算复杂度、模型描述的简洁度等。

(4)异常分析

前面讨论的关联、分类、聚类分析等数据挖掘技术研究的问题主要是针对数据集中的大部分对象,而数据集中小部分明显不同于其他数据的对象(异常对象)常常被人们忽略或作为噪音消除。事实上,一些应用中,这些异常对象可能包含比正常数据更优价值的信息,比如信用卡欺诈检测问题中,相对被窃前的使用模式而言,被窃后的使用模式很可能是个异常点,因此可通过识别这个异常点检测信用卡是否被窃。异常分析已经成为数据挖掘中的一个重要方面,它是在诸如信用卡使用模式这样的大量数据中发现明显不同于其他数据的异常对象的技术。

一个数据集中包含的一些特别的数据称为“异常”,它们的行为和模式与一般的数据不同,它们又不同于聚类算法中的“噪音”,不依赖于是否存在簇。异常分析算法主要包括基于统计的异常分析方法、基于偏差的异常分析方法、基于距离的异常分析方法以及基于密度的异常分析方法等。

(5)特异群组挖掘

特异群组挖掘在证券金融、医疗保险、智能交通、社会网络和生命科学等研究领域具有重要应用价值。特异群组挖掘与聚类、异常挖掘都属于根据数据对象的相似性来划分数据集的数据挖据任务,但是,特异群组挖掘在问题定义、算法设计和应用效果方面不同于聚类和异常等挖掘任务。

挖掘高价值、低密度的数据对象是大数据的一项重要工作,甚至高价值、低密度常常被用于描述大数据的特征。将大数据集中的少部分具有相似性的对象划分到若干个组中,而大部分数据对象不在任何组中,也不和其他对象相似,将这样的组群称为特异群组,实现这一挖掘需求的数据挖掘任务被称为特异群组挖掘。需要强调的是,特异群组是指由给定大数据集里面少数相似的数据对象组成的、表现出相异于大多数数据对象而形成异常的群组,是一种高价值、低密度的数据形态。

大数据的特异群组挖掘具有广泛的应用背景。例如,在证券市场中,特异群组常常表现为合谋操纵(多帐户联合操纵)、基金“老鼠仓”等。

(6)演变分析

ICDM(国际数据挖掘大会)2006年从18种提名的数据挖掘算法中投票选出了十大算法。这18中提名数据挖掘算法分属10大数据挖掘主题,高亮部分即为最终选出的十大算法:

序列模式(SequentialPatterns)

4.器以成事

器就是数据挖掘的具体工具。例如,传统商业分析工具有Matlab、SAS和SPSS,开源的数据挖掘工具有R、python、Weka等。

参考文献

作为一直想入门数据分析的童鞋们来说,如何选定一门面向数据分析的编程语言或工具呢?注意是数据分析,而不是大数据哦,数据分析是基础了。

数据分析的工具千万种,综合起来万变不离其宗。无非是数据获取、数据存储、数据管理、数据计算、数据分析、数据展示等几个方面。而被提到频率最高的如Excel、R、Python、SPSS、SAS、SQL等。那么,这些工具本身到底有什么特点呢,应该如何合理的使用来解决数据分析的各种问题?

最简单的是EXCEL,它不仅是简单的而且是必备的。正所谓初级学图表,中级学函数透视表,高级学习VBA。EXCEL功能的强大只有那些正真学过它的人才能知道,我们反对任何关于EXCEL复杂,不实用的说法。在学完VBA之后,EXCEL几乎能解决你在日常工作中遇到的所有问题。EXCEL是你成为数据分析师的必备条件。

对于一个初级的数据分析师来说,刚开始如果能精通SQL与Excel再会点SPSS之类的就差不多了。SPSS对用户的要求是只要会点击菜单就可以了,有编程窗口但是一般没人用,用户多是受到过一些统计训练的,但不需要高深的分析能力,市场调研用的比较多,统计专业的学生一般要求掌握。

再往后,你可能就需要精通一门统计分析软件了,一般说来如果是互联网行业可能R语言是最为流行,因为R语言是开源的,不过上手还是需要长期的学习;SPSS界面友好型,不过一般是市场研究用的比较多,如果你会用SPSS编程,其实功能还是比较强大的,建议如果想先练手可以学这个,上手快;SAS一般是金融企业特别是银行业和医学统计,银行业人员有一些是用SAS做统计,一般是银行业内部人做的,另一种是给银行业做数据挖掘的公司,不过正版一年也要上百万,不是土豪也用不起,而且SAS学习没人指导很难学;所以看童鞋们的选择,想在传统或者咨询公司做的SPSS比较合适,想去金融特别是银行业SAS不错,想进互联网公司学R语言可能是比较明智。

再就是Python。Python在这些工具里面是综合功能最强大的,但是这些功能分散在第三方库里面,没有得到有机的整合,所以学习成本还是比较高的。Python与R不同,Python是一门多功能的语言。数据统计是更多是通过第三方包来实现的。具体来说,常用的Python在统计上面的Package有这样一些:

1、Numpy与Scipy。这两个包是Python之所以能在数据分析占有一席之地的重要原因。其中Numpy封装了基础的矩阵和向量的操作,而Scipy则在Numpy的基础上提供了更丰富的功能,比如各种统计常用的分布和算法都能迅速的在Scipy中找到。

2、Matplotlib。这个Package主要是用来提供数据可视化的,其功能强大,生成的图标可以达到印刷品质,在各种学术会议里面出镜率不低。依托于Python,可定制性相对于其他的图形库更高。还有一个优点是提供互动化的数据分析,可以动态的缩放图表,用做Adhocanalysis非常合适。

3、ScikitLearn。非常好用的MachineLearning库,适合于用于快速定制原型。封装几乎所有的经典算法,易用性极高。

4、Python标准库。这里主要是体现了Python处理字符串的优势,由于Python多功能的属性和对于正则表达式的良好支持,用于处理文本是再合适不过的了。

总之R和SAS是专业性比较强的统计软件,统计专业学生必备,SPSS是更大众化的统计软件,Python不是统计软件,而是一种可以用来做各种事情的语言。R和Python现在越来越受到各大公司的喜欢,也必定会成为将来的发展趋势。Python的功能可远远不止用来分析数据,它可以用来开发,建站,写个小APP什么的。我们所知道的果壳网,知乎,DROPBOX等可都是用Python写得哦。如果你能同时学会Python和R,在数据科学领域肯定就游刃有余了。

名称

特点

适用场景

出现频数

1

Excel

一般非大量数据分析的人员可以满足大部分需求

财务、金融、产品经理等一般数据量处理需求

较高,作为普通技能

2

R语言

兼容性强,语言程序化也强,在编程语言方面需要投入的精力比Python大,但适用面较广

最常用数据分析工具之一,兼容性强

高频工具之一

3

Python

Lifeistooshort,IusePython

以语言简单,注重数据分析的高效著称,尤其是在文本处理等数据结构化方面有很好优势

编程类数据分析,如文本字符等非结构化数据的处理

4

SQL

数据库处理和分析的必备技能,属于数据库方面的基本工具

侧重数据库方面,如数据仓库等,作为Oracle等数据库方面的基础知识不可或缺

5

SPSS

统计分析功能强大,侧重于统计分析类模型

建模能力已经不局限于统计了,在预测、机器学习方面也有很多包

频率一般

6

SAS

金融大数据分析

金融风控建模较多

金融投资数据建模常用工具之一

7

Matlab

矩阵计算等数学专用建模工具

强大的各种工具包,以及仿真能力

侧重于数据本身的计算,院校科研用的较多

总的来说,不同工具各有擅场,最关键的当然还在于业务的掌握和数学方法的掌握(统计学和机器学习等核心方法)。但磨刀不误砍柴工,把基本工具掌握熟练了百利无一弊。而当你要做大数据分析的时候,还会用到Hadoop等工具(实际上这些工具都是可以结合Hadoop大数据平台联合起来用的,后面专题介绍)。而且,工具不是万能的,业务和数据建模方法才是万法之源。不要被工具迷花了眼哦!

人工智能赛博物理操作系统

AI-CPSOS

“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPSOS”:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPSOS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPSOS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPSOS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

AI-CPSOS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPSOS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

AI-CPSOS形成的数字化+智能化力量通过三个方式激发经济增长:

给决策制定者和商业领袖的建议:

子曰:“君子和而不同,小人同而不和。”《论语·子路》云计算、大数据、物联网、区块链和人工智能,像君子一般融合,一起体现科技就是生产力。

如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!

新一代技术+商业的人工智能赛博物理操作系统AI-CPSOS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。

产业智能官AI-CPS

用“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPSOS”:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能驾驶”、“智能金融”、“智能城市”、“智能零售”;新模式:“案例分析”、“研究报告”、“商业模式”、“供应链金融”、“财富空间”。

点击“阅读原文”,访问AI-CPSOS官网

本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!

THE END
1.数据挖掘概念(AnalysisServices该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。这些任务转换为下列问题: 您在查找什么?您要尝试找到什么类型的关系? 您要尝试解决的问题是否反映了业务策略或流程? 您要通过数据挖掘模型进行预测,还是仅仅查找受关注的模式和关联? https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
2.数据挖掘类文章属于什么类型mob64ca12e83232的技术博客数据挖掘是一种从大量数据中提取隐含的、有用信息和知识的过程。它涉及统计学、机器学习、数据库技术等多门学科,因此数据挖掘类文章通常属于数据分析、机器学习和统计学等类别。本文将介绍数据挖掘的基本概念,并结合具体的代码示例,展示如何使用Python进行简单的数据挖掘任务。 https://blog.51cto.com/u_16213397/12827058
3.机器学习:开启智能未来的钥匙腾讯云开发者社区Gartner 预测,到 2026 年底,将有超过 100 亿美金投资于那些依赖基础模型(基于大量数据训练的大型 AI 模型)的 AI 初创公司。这表明企业对人工智能的重视程度不断提高,未来人工智能领域的投资将持续增长。 五、定义与概念 (一)什么是机器学习 机器学习是一种让计算机系统具备从数据中学习的能力,并通过学习不断优化https://cloud.tencent.com/developer/article/2478495
4.数据挖掘师在市场中的地位与未来的展望为了成为一名成功的数据挖掘师,不仅需要扎实的地理信息系统(GIS)、数据库管理系统(DBMS)、机器学习模型构建等基础知识,更重要的是要有丰富实践经验。这包括参与过至少一次全面的项目开发周期,从初步定义问题到最终呈现结果,可以展示出你解决复杂问题的一套流程,同时还需关注用户体验设计,以确保你的发现被人们接受并应用https://www.f3kg3td6j.cn/jun-lei-zi-xun/496259.html
5.机器学习为什么需要训练,训练出来的模型具体又是什么?三、模型训练 定义损失函数:根据任务的性质选择合适的损失函数,如交叉熵损失函数用于分类任务,均方误差https://www.zhihu.com/question/29271217/answer/59768536808
6.系统分析师(必背知识点)理解:实际是RAID 0 的改进版,组中的第1、2、4、…2 n 个磁盘驱动器是专门的校验盘,用于校验和纠错。其它磁盘存数据。 RAID 3使用奇偶校验,并用单块磁盘存储奇偶校验信息; 理解:和PAID 4一样,单独用一个磁盘存储校验信息,RAID 3采用位交叉奇偶校验码(水平),RAID 4采用块交叉奇偶校验码(垂直)。 http://it.en369.cn/jiaocheng/1725919287a577322.html
7.网络学习行为分析12篇(全文)网络教育的任务之一是提高网络学习的有效性,那么阻碍网络有效性学习的困境是什么呢? 1.学习者个体特征方面 (1)个体特点 学习时间得不到保证,学习质量和效率也不到保证。学习自律性差。不能有效使用学习资源。 (2)心理特点 学习动机不强、目标不明确。学习缺乏主动性、积极性。自我调节学习能力低。 https://www.99xueshu.com/w/ikeyoc0p351m.html
8.ASurveyOfdifferentialprivacy随着具有自己通信能力的车辆互联网的引入,当前的智能交通系统(ITS)能够从道路上的个体车辆轻松收集大量的交通数据,如驾驶轨迹和模式。ITS收集到的车辆的大量地理空间信息(通常由纬度和经度坐标表示)可以发布给第三方进行各种数据分析任务,如交通估计和道路维护规划,这对车辆驾驶员和ITS都有益处。然而,位置数据通常包含https://www.moguit.cn/info/1532
9.《Python数据挖掘:概念方法与实践》——1.2节如何进行数据挖掘1)业务理解。在这一步中,分析人员花时间从业务视角理解数据挖掘项目的动机。 2)数据理解。在这一步中,分析人员熟悉数据及其潜在优势和不足,并开始生成假设。分析人员的任务是在必要时重新评估第1步的业务理解。 3)数据准备。这一步包含其他模型作为单独步骤列举的选择、整合、变换和预处理步骤。CRISP-DM模型对这些https://blog.csdn.net/weixin_34025051/article/details/90530624
10.数据挖掘:概念与技术对给定的数据挖掘查询临时构造数据方:该方法根据任务相关的数据集,动态地构造数据方。如果任务相关的数据集太特殊,不能与任何预定义的数据方匹配,或者任务相关的数据集不太大时,该方法是所期望的。由于这种数据方仅当查询提交之后才计算,构造这种数据方的主要动机是便于有效地下钻。有了这种数据方,下钻到主关系层https://doc.mbalib.com/view/1e4b796abaf826128901e897f8ccb599.html
11.机器学习[1][2]机器学习算法用于各种应用,例如电子邮件过滤和计算机视觉,在这些应用中,开发用于执行任务的特定指令的算法是不可行的。机器学习与计算统计学密切相关,计算统计学侧重于使用计算机进行预测。算法优化的研究为机器学习领域提供了方法、理论和应用领域。数据挖掘是机器学习中的一个研究领域,侧重于探索性数据分析到无https://wuli.wiki/assets/sogou/1157.%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%20-%20%E6%90%9C%E7%8B%97%E7%A7%91%E5%AD%A6%E7%99%BE%E7%A7%91.html
12.面向资源受限物联网设备的联邦学习研究综述动机 在边缘设备上收集/产生的不断增长的数据是数十亿连接物联网设备的结果,每个活跃的物联网客户端提取他们的观察数据,并将这些数据推到边缘。传统的机器学习(ML)方法需要在数据中心或单个机器上对提取的数据元素进行聚合,这种学习方案在不同的基于人工智能的巨头公司中很常见,如Facebook和谷歌。公司将收集到的所有https://www.nowcoder.com/discuss/372483853653467136
13.BURP商店插件官方目录及功能介绍(翻译)Add & Track Custom Issues(添加和跟踪自定义问题) 此扩展允许在Burp中添加和跟踪自定义扫描问题。Burp添加了它从主动扫描和被动扫描中发现的问题,但是不允许创建或跟踪自定义问题。现在,可以通过在Burp中的不同选项卡上右键单击并选择“添加和跟踪自定义问题”来创建自定义问题。 https://www.t00ls.com/articles-58902.html
14.数据挖掘的概念描述分为特征描述和区别性描述。【单选题】( )就是要求把自己职责范围内的事做好,合乎质量标准和规范要求,能够完成应承担的任务。 查看完整题目与答案 【单选题】构成前房的部位有( )。 查看完整题目与答案 【单选题】尽职尽责的关键是( )。 查看完整题目与答案 【单选题】晶状体的成分主要是( )。 查看完整题目与答案 【单选题】下列https://www.shuashuati.com/ti/b4084b2699e34d9884a607b718032dcc.html?fm=bdbc87ae1b6a085c49866a9dd6f354279b
15.大数据时代的教学改革(精选十篇)NoSQL数据管理技术是关系型数据管理技术的有益补充,它包括针对异构海量数据的存储、查询和分析技术,是以Web搜索、电子商务、个性化信息服务、社交网络等为典型代表的新型应用的支撑技术,也是大数据时代数据分析的主要支撑技术,是目前信息检索、数据挖掘、机器学习等领域的重要关键技术。另一方面,为应对大数据时代数据管理的https://www.360wenmi.com/f/cnkey70nk35r.html
16.电子商务应用论文15篇论文关键词:任务驱动法;电子商务;应用 任务驱动教学法是指教师在教学的过程中,根据教学目标和教学内容,结合学生的基础和特点设计任务,在任务中隐含教学知识点,然后将任务布置给学生,让学生在强烈的问题动机的驱动下,通过分析任务、解决任务来学习新的知识。这样不仅可以提高学生学习的主动性,而且还可以培养学生的创新能https://biyelunwen.yjbys.com/fanwen/dianzixinxigongcheng/733135.html
17.2020年媒体技术趋势报告:13大领域89项变革全输出机器学习指的是一种应用算法来分析数据,从而可以更好地完成各种任务的系统,并且随着时间推移,它会越来越擅长这些任务。但这种系统也面临着效率问题:系统需要停下来解析数据。而最新研究表明,实时机器学习可以随数据获取而实时调整模型。这标志着数据移动方式以及我们检索信息方式的巨大变化。 https://36kr.com/p/5267903
18.项目实施组织形式和管理措施(共13篇)在CRM项目管理中,多处用到项目计划的内容。例如在确定CRM范围时,要确定范围计划编制和范围定义;在CRM项目时间管理中,要编制项目进度安排计划;在CRM成本管理中,要编制资源计划、成本估算和成本预算。 CRM项目控制 控制是一个过程,用来衡量项目的方向、监控偏离计划的偏差,并采取纠正措施,使进展与计划相吻合。项目控制对https://www.hrrsj.com/wendang/qitafanwen/797950.html