机器学习入门笔记(六):集成学习

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2023.09.11

如下图显示出集成学习的一般结构:从训练数据集中根据特定的算法,如决策树算法、BP神经网络算法等,产生多组个体学习器(individuallearner),再用某种策略将它们结合起来,从而生成最终的集成模型。

当所有个体学习器都由同样的学习算法生成时,也即集成中只包含同种类型的个体学习器时,称为同质(homogeneous)集成。同质集成中的个体学习器亦称基学习器(baselearner),相应的学习算法称为基学习算法(baselearningalgorithm)。

当个体学习器由不同的学习算法生成时,称为异质(heterogenous)集成。异质集成中的个体学习器由不同的学习算法生成,这时就不再有基学习算法;相应的,个体学习器一般不称为基学习器,常称为组件学习器(componentlearner)或直接称为个体学习器。

集成学习通过结合多个学习器,通常能获得比单一学习器更优越的泛化性能,对弱学习器(weaklearner)的提升尤为明显,因此集成学习的很多理论都是针对弱学习器进行的,而基学习器有时也被直接称为弱学习器。

Boosting

AdaBoost

Boosting族算法最著名的代表是AdaBoost

基于AdaBoost算法的强分类器的训练

Boosting算法要求基学习器能:

一般而言,两种方法没有显著的优劣差别。

前面提到过想要泛化性能强,个体学习器应尽可能相互独立。但我们也知道独立很难,那咋办呢?

可以设法使基学习器尽可能具有较大的差异:给定一个训练数据集,然后对训练样本进行采样,产生出若干个不同的子集,再从每个数据子集中训练出一个基学习器。这样,由于训练数据不同,获得的基学习器可望具有比较大的差异。然而,为获得好的集成,同时还希望个体学习器不能太差。如果采样出的每个子集都完全不同,则每个基学习器只用到了一小部分训练数据,甚至不足以进行有效学习,这显然无法确保产生出比较好的基学习器。为解决这个问题,可考虑使用相互有交叠的采样子集。

Bagging是并行式集成学习方法最著名的代表。从名字即可看出,它直接基于模型性能评价与选择中的自助采样法(bootstrapsampling)。

给定包含m个样本的数据集,先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样,经过m次随机采样操作,我们得到含m个样本的采样集,初始训练集中有的样本在采样集里多次出现,有的则从未出现。继而可采样出T个含m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合,这就是Bagging的基本流程。

在对预测输出进行结合时,Bagging通常对分类任务使用简单投票法,对回归任务使用简单平均法。若分类预测时出现两个类收到同样票数的情形,则最简单的做法是随机选择一个,也可进一步考察学习器投票的置信度来确定最终胜者。Bagging的算法描述图如下:

Bagging集成有以下优点:

随机森林(RandomForest,简称RF)是Bagging的一个扩展变体。RF在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。具体来说,传统决策树在选择划分属性时是在当前结点的属性集合(假定有d个属性)中选择一个最优属性;而在RF中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分。

随机森林简单、容易实现、计算开销小,令人惊奇的是,它在很多现实任务中展现出强大的性能,被誉为代表集成学习技术水平的方法。可以看出,随机森林对Bagging只做了小改动,但是与Bagging中基学习器的多样性仅通过样本扰动(通过对初始训练集采样)而来不同,随机森林中基学习器的多样性不仅来自样本扰动,还来自属性扰动,这就使得最终集成的泛化性能可通过个体学习器之间差异度的增加而进一步提升。

随机森林的收敛性与Bagging相似。如下图所示:

RandomForest算法图描述:

对数值型输出hi(x)∈R,最常见的结合策略是使用平均法(averaging)。

其中wi是个体学习器hi的权重,通常要求

加权平均法的权重一般是从训练数据中学习而得,现实任务中的训练样本通常不充分或存在噪声,这将使得学出的权重不完全可靠.尤其是对规模比较大的集成来说,要学习的权重比较多,较容易导致过拟合。

一般而言,在个体学习器性能相差较大时宜使用加权平均法,而在个体学习器性能相近时宜使用简单平均法。

对分类任务来说,学习器hi将从类别标记集合c1,c2,,cN,中预测出一个标记,最常见的结合策略是使用投票法(voting)。为便于讨论,我们将hi在样本x上的预测输出表示为一个N维向量

其中

是hi在类别标记cj上的输出

即若某标记得票过半数,则预测为该标记;否则拒绝预测。

即预测为得票最多的标记,若同时有多个标记获最高票,则从中随机选取一个。

当训练数据很多时,一种更为强大的结合策略是使用学习法,即通过另一个学习器来进行结合。

Stacking是学习法的典型代表。这里把个体学习器称为初级学习器,用于结合的学习器称为次级学习器或元学习器(meta-learner)。即先从初始数据集训练出初级学习器,然后"生成"一个新数据集用于训练次级学习器。在这个新数据集中,初级学习器的输出被当作样例输入特征,而初始样本的标记仍被当作样例标记。

算法描述图如下,这里假定初级学习器使用不同学习算法产生,即初级集成是异质的。

在训练阶段,次级训练集是利用初级学习器产生的,若直接用初级学习器的训练集来产生次级训练集,则过拟合风险会比较大;因此,一般是通过使用交叉验证或留一法这样的方式,用训练初级学习器未使用的样本来产生次级学习器的训练样本。

THE END
1.10本机器学习入门书籍推荐本书是一本机器学习入门的必备图书,书中没有让人头晕眼花的公式推导,而是通过一些易于理解的类比、案例以及图片,以通俗易懂的方式讲解了机器学习中的一些名词和常见算法,使初学者能够很容易地掌握机器学习的相关概念工具、数据处理、回归与分析、建模与优化等内容。 https://zhuanlan.zhihu.com/p/415035356
2.机器入门必修国际名校机器学习课程教材推荐机器学习英文教材本文介绍了四本经典的机器学习入门书籍,包括《MitchellsMachineLearning》、《ElementsofStatisticalLearning》、《PatternRecognition》和《AnAlgorithmicPerspective》,它们分别从理论基础、统计学习、模式识别和算法实用性出发,为初学者提供了全面的学习路径和实践经验。 https://blog.csdn.net/qq_20288327/article/details/135494008
3.机器学习入门到精通!不愧是公认的讲的最好的机器学习全套教程-IceDawn-创建的收藏夹Vision内容:机器学习入门到精通!不愧是公认的讲的最好的【机器学习全套教程】同济大佬12小时带你从入门到进阶(机器学习/线性代数/人工智能/Python),如果您对当前收藏夹内容感兴趣点击“收藏”可转入个人收藏夹方便浏览https://www.bilibili.com/medialist/play/ml3169158525
4.《机器学习入门》课件《机器学习入门》课件 《机器学习入门》ppt课件 目录 ?机器学习简介?机器学习基础?机器学习算法?机器学习实践?机器学习未来展望?总结与参考文献 01 机器学习简介 定义与概念 定义 机器学习是一门研究如何让计算机系统从数据中学习和改进,以提升预测和决策能力的学科。概念 机器学习基于数据和算法,通过https://wenku.baidu.com/view/dfb629c32d3f5727a5e9856a561252d381eb205e.html
5.机器学习入门指南(全)腾讯云开发者社区机器学习入门指南(全) 前言 机器学习作为人工智能领域的核心组成,是计算机程序学习数据经验以优化自身算法,并产生相应的“智能化的”建议与决策的过程。 一个经典的机器学习的定义是: A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, https://cloud.tencent.com/developer/article/2014063
6.机器学习入门教程机器学习入门教程 网易云课堂: 吴恩达博士《 神经网络和深度学习》免费课程资料 https://mooc.study.163.com/smartSpec/detail/1001319001.htm/ 深度学习开源官网: https://www.deeplearning.ai/ 入门需要理解几个概念: 1、导数即斜率=height/width 2、梯度下降https://www.jianshu.com/p/43aaadb953cd
7.机器学习入门教程机器学习入门教程 机器学习入门教程 什么是机器学习? python机器学习入门 基础数学知识 机器学习需要什么? 机器学习如何快速上手 机器学习模型和算法 使用Python开始机器学习 python机器学习入门实战小结 Python快速入门机器学习 PYTHON的机器学习的入门贴https://www.kmbox.cn/app/mlin/index.html
8.机器学习入门介绍(非常易懂)TheChosenOne机器学习入门介绍(非常易懂) //2019.07.31早上 机器学习基本概念介绍 1、机器学习的含义在于让机器去学习,其核心在于学习。 2、最早的机器学习应用是在垃圾邮件的分辨,它开启了机器学习的领域和时代 3、机器学习的典型应用主要体现在以下几个方面: (1)图像识别 https://www.cnblogs.com/Yanjy-OnlyOne/p/11278951.html
9.深入浅出,一篇超棒的机器学习入门文章深入浅出,一篇超棒的机器学习入门文章 1.一个故事说明什么是机器学习 机器学习这个词是让人疑惑的,首先它是英文名称Machine Learning(简称ML)的直译,在计算界Machine一般指计算机。这个名字使用了拟人的手法,说明了这门技术是让机器“学习”的技术。但是计算机是死的,怎么可能像人类一样“学习”呢?https://xxgcxy.hist.edu.cn/info/1181/3947.htm
10.深度学习的基础:机器学习入门和数学基础51CTO博客深度学习的基础:机器学习入门和数学基础 转型的程序员都关注了这个号? 大数据挖掘DT机器学习公众号: datayx 1.机器学习 (Machine Learning, ML) ?1.1 概念:多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,https://blog.51cto.com/u_15404184/5243069
11.机器学习机器学习使计算机能够从研究数据和统计信息中学习。 机器学习是迈向人工智能(AI)方向的其中一步。 机器学习是一种程序,可以分析数据并学习预测结果。从何处开始? 在本教程中,我们将回到数学并研究统计学,以及如何根据数据集计算重要数值。 我们还将学习如何使用各种 Python 模块来获得所需的答案。 并且,我们将学习https://www.w3school.com.cn/python/python_ml_getting_started.asp
12.机器学习基础入门.pdf机器学习基础 赵永红 四川师范大学物理系 CSRC-2017 人和人工智能 狼来了…… CSRC-2017 李开复 CSRC-2017 困 CSRC-2017 人工 机器 深度 智能 学习 学习 机器如何学习? 人类如何学习? CSRC-2017 机器学习? CSRC-2017 The Niche for Machine Learning:1997 数据挖掘:从过去的数据预言未来; 处理难以手动编程的事情https://m.book118.com/html/2019/0705/7144102112002036.shtm
13.9讲入门机器学习9讲入门机器学习更多优惠 机器学习手推和代码实现 视频课 主讲老师:louwill 感兴趣人数:1943人 价格¥99.00 立即购买 免费试看 louwill louwill,统计硕士出身,目前杭州某AI公司深度学习算法工程师。著有《深度学习笔记》一书。个人公众号机器学习实验室。 https://vip.open.163.com/courses/B6D2EB5138DE345B76EDB510D5900772
14.95后哈佛小哥撰写《从零开始的机器学习》,入门必备,书籍资源已开放机器学习怎么入门最简单?今年刚刚从哈佛大学统计专业毕业的 Danny Friedman 写了一本「转专业学生专用教材」,无基础也可轻松入门,资源现已全部开放。 说起机器学习入门书,大概有成百上千种选择。这些书籍大多是由具备丰富研究经验的学者撰写的,涵盖各种主题。 https://www.thepaper.cn/newsDetail_forward_9418519
15.关于机器学习的7本入门级好书关于机器学习的 7 本入门书籍机器学习和人工智能是蓬勃发展的领域,并且正在越来越多地成为人们的研究主题。我们在新闻中听到的关于机器学习的各种高级应用似乎高不可攀,但他们的核心理念却很好理解。本文将讨论一些最受机器学习初学者(或者任何有兴趣了解该主题的人)欢迎的资源。其中某些书籍需要读者熟悉一些编码语言和https://www.tableau.com/zh-cn/learn/articles/books-about-machine-learning
16.机器学习初学者笔记为本人整理机器学习爱好者群编写的笔记,目前更新完成。 课程简介与致谢 笔记在线阅读 github:https://github.com/fengdu78/deeplearning_ai_books 3.机器学习的数学基础 参考教科书编写,仅作参考。markdown文件将会在github公布。 1.CS229线性代数翻译 http://www.ai-start.com/
17.《零基础学机器学习》(黄佳)简介书评在线阅读人工智能教程籍,深入浅出神经网络与深度学习入门,基于python框架算法,机器学习入门小白书,与小冰一起课堂培训丰富的实战案例赠送全书实例源代码、案例数据集。 作者:黄佳出版社:人民邮电出版社出版时间:2020年12月 手机专享价 ¥ 当当价降价通知 ¥85.30 http://product.dangdang.com/29159728.html
18.16个新手必看的机器学习视频教程雷峰网1、机器学习新手入门 如何在6个月内成为一个数据科学家 视频时长:56分24秒 视频链接:https://youtu.be/rIofV14c0tc 内容简介:视频中,Tetiana Ivanova 分享了她六个月成为数据科学家的真实过程。她是因为参加了编程马拉松活动而开始学习机器学习技术。如果你正在思考到底应该读一个数据分析研究生还是选择自学,你应https://www.leiphone.com/news/201610/Oqndr7PXFB9BRI9p.html