数据挖掘十大经典算法(1):C4.5算法

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:

1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2)在树构造过程中进行剪枝;3)能够完成对连续属性的离散化处理;4)能够对不完整数据进行处理。

C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

基于熵的概念,我们可以得到参数选择的第一个规则:信息增益(InfoGain).信息增益的定义是分裂前的节点熵减去分裂后子节点熵的加权和,即不纯度的减少量,也就是纯度的增加量。参数选择的规则是:选择使信息增益最大的参数分割该节点。信息增益计算的算例如下图。

信息增益存在的问题时:总是倾向于选择包含多取值的参数,因为参数的取值越多,其分割后的子节点纯度可能越高。为了避免这个问题,我们引入了增益比例(GainRatio)的选择指标,其定义如下图所示。

增益比例存在的问题是:倾向于选择分割不均匀的分裂方法,举例而言,即一个拆分若分为两个节点,一个节点特别多的实例,一个节点特别少的实例,那么这种拆分有利于被选择。

为了克服信息增益和增益比例各自的问题,标准的解决方案如下:首先利用信息增益概念,计算每一个参数分割的信息增益,获得平均信息增益;选出信息增益大于平均值的所有参数集合,对该集合计算增益比例,选择其中增益比例最大的参数进行决策树分裂。

上面介绍的是基于熵概念的参数选择规则,另一种流行的规则称为基尼指数(GiniIndex),其定义如下图。基尼系数在节点类别分布均匀时取最大值1-1/n,在只包含一个类别时取最小值0.所以与熵类似,也是一个描述不纯度的指标。

基于基尼系数的规则是:选择不纯度减少量(Reductioninimpurity)最大的参数。不纯度减少量是分割前的Giniindex减去分割后的Giniindex。基尼系数的特点与信息增益的特点类似。

过度拟合问题(Overfitting)

过度拟合问题是对训练数据完全拟合的决策树对新数据的预测能力较低。为了解决这个问题,有两种解决方法。第一种方法是前剪枝(prepruning),即事先设定一个分裂阈值,若分裂得到的信息增益不大于这个阈值,则停止分裂。第二种方法是后剪枝(postpruning),首先生成与训练集完全拟合的决策树,然后自下而上地逐层剪枝,如果一个节点的子节点被删除后,决策树的准确度没有降低,那么就将该节点设置为叶节点(基于的原则是Occam剪刀:具有相似效果的两个模型选择较简单的那个)。

代表算法

这里介绍两个算法,一个是RainForest,其主要的贡献是引入了一个称为AVC的数据结构,其示意图如下。主要的作用是加速参数选择过程的计算。

THE END
1.《AI大模型开发笔记》——数据挖掘领域十大经典算法数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式https://blog.csdn.net/qq837993702/article/details/128758600
2.学习笔记数据预处理与数据挖掘十大经典算法经管学习笔记数据预处理与数据挖掘十大经典算法 https://bbs.pinggu.org/thread-13203069-1-1.html
3.进入机器学习领域必须掌握的十大算法最流行的回归算法是:普通最小二乘回归 (OLSR)线性回归逻辑回归逐步回归多元自适应回归样条 (MARS)局部估计散点图平滑 (LOESS)基于实例的算法 基于实例的学习模型是一个决策问题,涉及模型认为重要或需要的训练数据实例或示例。此类方法通常建立示例数据的数据库,并使用相似性度量将新数据与数据库进行比较,以便找到https://baijiahao.baidu.com/s?id=1777163698574869872&wfr=spider&for=pc
4.学习详解数据挖掘十大经典算法!腾讯云开发者社区不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。 数据挖掘十大经典算法(1) C4.5 机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可https://cloud.tencent.com/developer/article/1105704
5.CICC科普栏目图解最常用的10大机器学习算法!对于渴望了解机器学习基础知识的机器学习新人来说,这儿有份数据科学家使用的十大机器学习算法,为你介绍这十大算法的特性,便于大家更好地理解和应用,快来看看吧。 01 线性回归 线性回归可能是统计学和机器学习中最知名和最易理解的算法之一。 由于预测建模主要关https://mp.weixin.qq.com/s?__biz=MzA4ODcwOTExMQ==&mid=2655687341&idx=6&sn=1aa93ee95492febc75ab3308f359d62d&chksm=8b983035bcefb923fe4cf358e48875c022f79aacf8de7759ef38b0ce005def067f86f4153268&scene=27
6.数据挖掘十大经典算法数据挖掘十大经典算法_总结版.ppt,《数据挖掘领域十大经典算法初探》 数据挖掘领域十大经典算法初探 - 结构之法 算法之道 - 博客频道 - CSDN.NET 译者:July二零一一年一月十五日 参考文献: 国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法: C4.5https://max.book118.com/html/2016/0424/41239351.shtm
7.数据挖掘十大算法([美]吴信东等)中文pdf扫描版[52MB]电子书下载《世界著名计算机教材精选:数据挖掘十大算法》详细介绍了在实际中用途最广、影响最大的十种数据挖掘算法,这十种算法是数据挖掘领域的顶级专家进行投票筛选的,覆盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题。《世界著名计算机教材精选:数据挖掘十大算法》对每一种算法都进行了多个角度的深入https://www.jb51.net/books/584409.html
8.PageRank算法为什么会跻身数据挖掘十大经典算法之列?一、PageRank的起源和发展 PageRank并不只是一个技术术语或一种算法,它代表了一个转折点,它定义了https://www.zhihu.com/question/30186718/answer/3218995283
9.清华大学出版社图书详情数据挖掘十大算法 作者:Xindong Wu, Vipin Kumar 编著,李文波 吴素研 译 丛书名:世界著名计算机教材精选 定价:39元 印次:1-9 ISBN:9787302310617 出版日期:2013.05.01 印刷日期:2020.12.30 在线购买 试读 内容简介 前言/序言 资源下载 版权信息 数据挖掘这一学科近年来发展十分迅速,不仅产生了大量不同类型的挖掘算http://www.tup.tsinghua.edu.cn/bookscenter/book_04600201.html
10.十大经典数据挖掘算法详解【十大经典数据挖掘算法详解】 以下是个人觉得算法讲解比较清晰易懂的博客! C4.5 K-Means SVM Apriori使用Apriori进行关联分析(一)使用Apriorhttps://www.jianshu.com/p/dc16ac2403e2
11.数据挖掘领域十大经典算法之C4.5算法(超详细附代码)C4.5是决策树算法的一种。决策树算法作为一种分类算法,目标就是将具有p维特征的n个样本分到c个类别中去。常见的决策树算法有ID3,C4.5,CART。 数据挖掘十大经典算法如下: 简介 C4.5是决策树算法的一种。决策树算法作为一种分类算法,目标就是将具有p维特征的n个样本分到c个类别中去。常见的决策树算法有ID3,Chttps://www.51cto.com/article/572078.html
12.数据挖掘领域十大经典算法summerbell数据挖掘领域十大经典算法 下面是参与评比的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。在我们学习数据挖掘时,可以以这18种算法为主线,如果能把每一种算法都弄懂,整个数据挖掘领域就掌握得差不多了。另外,也可以用这18种算法的熟悉程度来判断自己知识的掌握程度https://www.iteye.com/blog/479731
13.科学网—数据挖掘十大经典算法数据挖掘十大经典算法 1、C4.5分类决策树 2、K均值聚类 3、支持向量机 4、Apriori算法 5、期望最大化算法 6、PageRank算法 7、AdaBoost算法 8、k近邻算法 9、朴素贝叶斯分类器 10、分类与回归树(CART)https://wap.sciencenet.cn/blog-394950-535342.html
14.盘点机器学习的十大主流算法,看看你会哪个?K-最近邻算法(KNN)是数据挖掘分类技术中的最简单方法之一,其核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 https://www.fanyedu.com/content/4542.html
15.会计视野法规库:广西壮族自治区人民政府关于2015年度广西科学技术6. 基于数据挖掘技术的信号通路识别模型与算法研究 主要完成单位:广西大学 主要完成人员:陈庆锋、陈保善、李陶深、兰伟、胡小燕 7. MIMO无线通信系统容量优化理论方法研究 主要完成单位:桂林电子科技大学 主要完成人员:肖海林、王承祥、欧阳缮、闫坤、赵峰 8. 复杂电力、电机系统的非线性动力学行为及其控制研究 主要完成https://law.esnai.com/mview/176388/