《机器学习》西瓜书第八章集成学习曹婷婷

概念:集成学习通过构建并结合多个学习器来完成学习任务,有事也被称为多分类系统、基于委员会的学习等。

一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据中产生,例如决策树算法、BP神经网络算法;此时集成中只包含同种类型的个体学习器,例如“决策树集成”中全是决策树,这样的集成是“同质”的,同质集成中的个体学习器亦称“基学习器”相应的学习算法称为“基学习算法”。集成也可包含不同类型的个体学习器,例如同时包含决策树和神经网络,这样的集成是“异质”的;相应的个体学习器称为“组件学习器”或直接称为个体学习器。

集成学习通过对多个学习器进行结合,常和获得比单一学习器显著优越的泛化性能。这对弱学习器尤为明显(弱学习器常指泛化能力略优于随机猜测的学习器)基学习器有事也被直接称为弱学习器。但是在实践中处于种种考虑,例如希望使用较少的学习器,或是重用关于常见学习器的一些经验等,人们往往会使用比较强的学习器。

要获得好的集成,个体学习器应“好而不同”,即个体学习器要有一定的“准确性”,即学习器不能坏,并且要有“多样性”,即学习器间具有差异。如何产生并结合“好而不同”的学习器,恰是集成学习研究的核心。

目前的集成学习可大致分为两大类:①个体学习器间存在强依赖关系、必须串行生成的序列化方法;②个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表是Boosting。后者的代表是Bagging和“随机森林”。

8.2Boosting

在Adaboost算法中,第一个基分类器h1是通过直接将基学习算法用于初始数据分布而得;此后迭代地生成ht和αt,当及基分类器ht基于分布Dt产生后,该基分类器的权重应使得αtht最小化指数损失函数。

理想的ht将在分布Dt下最小化分类误差,因此弱分类器将基于Dt来训练,且针对Dt的分类误差应小于0.5,这在一定程度上类似“残差逼近”的思想。有:

Boosting算法要求基学习器能对特定的数据分布进行学习,者可通过“重赋权法”实施,即在训练过程的每一轮中,根据样本分布为每个训练样本重新赋予一个权重。对无法接受带全样本的基学习算法,则可通过“重采样法”来处理。即在每一轮学习中,根据样本分布对训练集进行重新采样,再用重采样而得的样本集对基学习器进行训练。采用“重采样法”,可获得“重启动”机会以避免训练过程过早停止。

8.3Bagging和随机森林

欲得到泛化能力强的集成,继承中的个体学习器应尽可能相互独立;虽然“独立”在现实任务中无法做到,但可以设法使基学习器尽可能具有较大差异。为解决这个问题,我们可以考虑才赢相互有交叠的采样子集。

8.3.1Bagging

Bagging是并行式集成学习方法最著名的代表。他直接基于自助采样法:给点包含m个样本的数据集,我们先随机取出一个样本放入采样集中,再把该样本放回初始采样集,使得下次采样时该样本仍有可能被选中,经过m次随机采样操作,得到含有m个样本的采样集。初始训练集中约有63.2%的样本出现在采样集中。

Bagging基本流程:我们可采样出T个含有m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合。

再对预测输出进行结合时,Bagging通常对分类任务使用简单投票法,对回归任务使用简单平均法。

假定基学习器的计算复杂度为O(m),则Bagging的复杂度大致分为T(O(m)+O(s)),考虑到采样与投票/平均过程的复杂度O(s)很小,因此训练一个Bagging集成与直接使用基学习算法训练一个学习器的复杂度同阶,因此,Bagging是一个很高效的及程序西算法。与标准AdaBoost只适用于二分类任务不同,Bagging能不经改变地用于多分类、回归等任务。

自助采样过程还给Bagging带来了另一个优点:由于每个基学习器只使用了初试采样集中约63.2%的样本,剩下约36.8%的样本可用作验证集来对泛化性能进行“外包估计”。

外包样本还有许多其他用途,当基学习器是决策树时,可使用外包样本来辅助剪枝,或用于估计决策树中各节点的后验概率以辅助对领训练样本节点的处理;当基学习器是神经网络时,可使用外包样本来辅助早期停止以减小过拟合风险。

8.3.2随机森林

随机森林RF是Bagging的一个拓展变体。RF在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择:具体来说,传统决策树在选择划分属性时是在当前结点的属性集合中选择一个最优属性;而在RF中,对及决策树的每个结点,先从该节点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分。这里的参数k控制了随机性的引入程度:若令k=d。则及决策树的构建与传统决策树相同;若k=1,则是随机选择一个属性用于划分;一般情况下,推荐值k=log2d.

随机森林简单、容易实现、计算开销小,令人惊奇的是,他在很多现实任务中展现出强大的性能,被誉为“代表集成学习技术水平的方法”。随机森林中基学习器的多样行不仅来自样本扰动,还来自属性扰动,这就使得最终集成的泛化性能可通过个体学习器之间差异度的增加而进一步提升。

随机森林的训练效率通常由于Bagging,因为在个体决策树的构建过程中,Bagging使用的是“确定型”决策树,字选择划分属性时要对结点的所有属性进行考察,而随机森林使用的“随机型”决策树则只需考察一个属性子集。

8.4结合策略

学习器结合可能会从三个方面带来好处:首先,从统计的方面来看,由于学习任务的假设空间往往很大,可能有多个假设在训练集上达到同等性能,此时若使用单学习器可能因误选而导致泛化性能不佳,结合多个学习器会减少这一风险;第二,从计算的方面看,学习算法会陷入局部极小,通过多次运行之后进行结合,可降低陷入糟糕局部极小点的风险;第三,从表示的方面来看,某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中,此时使用单学习器肯定无效,而通过结合多个学习器,由于响应的假设空间有所扩大,有可能学得更好的近似。

8.4.1平均法

对数值型输出,最常见的结合策略是使用平均法。

8.4.2投票法

对分类任务来说,学习器hi将从类别标记集合中预测出一个标记,最常见的结合策略就是投票法。

8.4.3学习法

当训练数据很多时,一种更为强大的结合策略是使用“学习法”,即通过另一个学习器来进行结合。Stacking是结合法的典型代表。我们把个体学习器称为初级学习器,用于结合的学习器称为次级学习器或元学习器。

Stacking先从初试训练集中训练出初级学习器,然后“生成”一个新数据集用于训练次级学习器。在这个新数据集中,初级学习器的输出被当做样例输入特征,而初试样本标记仍被当做样例标记。

THE END
1.“四个结合”策略(精选八篇)如在向量的数量积知识教学中,我结合这一知识内容,向学生提出了生活中遇到的一个现实性问题:“现在有一个木箱子,要将它吊起来,已知夹角为92°的两根绳子提起这个木箱,每根绳子的受力为4牛顿,那么你能算出这个箱子的重量吗?”从而使学生认识到向量的数量积知识与现实生活的密切关系,有效调动了学生学习知识的积极情感https://www.360wenmi.com/f/cnkeyfgjc8zm.html
2.2024年学习经验的总结优质(汇总16篇)2024年学习经验的总结优质(汇总16篇)2024-01-11 21:14:54 小编:薇儿 我们常常需要进行总结,以便更好地了解自己的学习和工作生活等方面的表现。总结的内容要与实际工作和学习紧密结合,体现对工作和学习的认识和理解。在这里,我们为大家整理了一些优秀的总结案例,请大家参考借鉴。 学习经验的总结优质篇一 大学是高中https://www.kaoyanmiji.com/wendang/29768.html
3.学习经验总结15篇(四)结合题意和等量关系(或者比值关系)列等式:列等式时一定要注明“∵”否则要扣分,一个等量一个等式,将所有等式加上已知条件组成方程组,解方程组得解. 学习经验总结3 小组合作学习能培养学生热爱集体、团结向上的团队精神,避免了部分学生的自私自利的狭隘思想,对学生人格方面有很大的塑造和熏陶。 能力和性格的不https://www.yjbys.com/zongjie/xuexi/1749430.html
4.真正做到学以致用,学用结合学习知识是重要的,但更重要的是学以致用。要拼命地充电,也要拼命地放电。 培根就曾说过:一个人不能为读书而读书,读书的最终目的是为了用。 生活中有不少人也经常在读书,甚至有的人读的书还很多。但是,有的人能做到活学活用,有的人则读了同没有读差不多,甚至还带来了害处。 https://www.meipian.cn/4tri0jzf
5.机器学习第八章集成学习第一类:个体学习器问存在强依赖关系、必须串行生成的序列化方法。代表是Boosting 第二类:个体学习器间不存在强依赖关系、可同时生成的并行化方法。代表是Bagging和"随机森林" (Random Forest)。 结合学习器的方式。 1)平均法 2)投票法 3)学习法 上面的产生和结合方式将在下面讲到。 https://www.jianshu.com/p/f5328020f44d
6.坚持学用结合抓好学习研讨党的二十大精神专题学习研讨 自党的二十大以来,南京市中心医院党委把学习宣传贯彻党的二十大精神作为首要任务,结合实际,第一时间安排部署各基层党支部专题学习研讨工作,在“学懂、弄通、做实”上下功夫,确保党的二十大精神入脑入心、落实落地。 党委委员“导”学。院党委第一时间召开党委会、中心组(扩大)学习会进行https://www.njszxyy.com/news/detail.aspx?Id=1725
7.坚持融会贯通学用结合把学习成效转化为发展实践会议强调,要按照中央和省委部署,把学习贯彻习近平总书记重要讲话精神作为当前和今后一个时期的头等大事和重大政治任务,认真抓好贯彻落实。一要把学习贯彻总书记重要讲话精神同学习贯彻习近平外交思想和总书记对广东重要讲话、重要指示精神结合起来,深刻把握蕴含其中的政治内涵、政治要求。二要把学习宣传贯彻总书记重要讲话精神https://news.southcn.com/node_54a44f01a2/f15a1b0ae9.shtml
8.三个“相结合”促进政治理论学习走深走实党群风采该段充分利用日交班会等时机,通过政治理论学习积极分子主动学,带动班组职工广泛学。结合学习内容、重点工作、岗位实际开展“每日一学”“每月一主题”,立足自身岗位开展集体讨论,交流学习体会、分享学习成果。发挥理论骨干作用,讲清当前中心工作和形势任务,引导职工深入研讨交流,落实在岗位实践中,推动政治理论学习走深走实https://www.peoplerail.com/rail/show-1822-541158-1.html
9.上位学习下位学习和并列组合学习三、并列组合学习(并列结合学习) 并列组合学习是指当新概念或新命题与学习者认知结构中已有的观念既不产生下位关系,又不产生上位关系时,它们之间可能存在组合关系,这种只凭组合关系来理解意义的学习就是并列组合学习。比如质量与能量、需求与价格,学生学习了钠镁元素性质,再学习铜铁元素性质就属于并列组合学习。 http://tj.zgjsks.com/html/2020/zx_0304/33363.html
10.集成学习精要集成学习(ensemblelearning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-base learning)。 集成学习的一般结构:先产生一组“个体学习器”(individual learner),再用某种策略将它们结合起来。 https://blog.csdn.net/wzk4869/article/details/126256654
11.坚持学用结合做到学以致用学以致用环节系列深入学习贯彻习近平总书记系列重要讲话精神 学习贯彻系列重要讲话精神要突出“三个结合”,即:结合全省大局、结合工作实际、结合思想实际。 学习贯彻系列重要讲话精神要突出“四个环节”,即:抓好“学”的环节、抓好“思”的环节、抓好“践”的环节、抓好“悟”的环节。 https://m.163.com/news/article/C08OVPJO00014SEH.html
12.《机器学习》学习笔记(七)——集成学习腾讯云开发者社区?学习法 多样性 误差-分歧分解 多样性度量? 多样性扰动 个体与集成 集成学习(ensemble learning)通过构建并结合多个学习器来提升性能。 考虑一个简单的例子,在二分类问题中,假定3个分类器在三个样本中的表现如下图所示,其中√表示分类正确,X号表示分类错误,集成的结果通过投票产生。 https://cloud.tencent.com/developer/article/1784019
13.坚持“五个结合”推动学习走深走实近年来,日照市委理论学习中心组紧紧围绕习近平新时代中国特色社会主义思想和习近平总书记对山东工作的重要指示要求,深入学习贯彻党的二十大精神,结合主题教育,坚持“五个结合”,深学细悟,内化转化,在笃照笃行中进一步提升政治能力、思维能力、实践能力,更加自觉地坚定拥护“两个确立”,坚决做到“两个维护”。 https://paper.dzwww.com/dzrb/content/20231107/Articel06004MT.htm
14.优秀案例“三三制”思政教育推进高职生工学结合实践的探索与通过融合企业、学校和学生教育主体的资源,发挥党组织、行政及学生团组织的作用,连接工学结合前、中、后的三个环节,探索出了一条适合高职院校学生工学结合实践学生思想政治教育和管理的模式,促进了“四位一体”工学结合学习实践的顺利进行。 (二)探索建立了工学结合实践学生党建新模式;https://www.zjitc.net/info/1016/26825.htm
15.学用结合推动高质量发展学习贯彻习近平新时代中国特色社会主义思想主题教育启动以来,集团公司党委按照“学思想、强党性、重实践、建新功”的总要求,结合企业自身实际,瞄准制约企业发展难题,不断推进问题整改,为坚定走好全面深化改革、扭亏脱困之路凝聚力量。 一、学深悟透 凝心铸魂强信念 http://www.xntg.com/index.php?case=archive&act=show&aid=1947