一文详解机器学习中的梯度提升机人工智能

Boosting是流行的学习集成建模技术之一,用于从各种弱分类器构建强分类器。它首先根据可用的训练数据集构建主要模型,然后识别基本模型中存在的错误。识别错误后,建立第二个模型,并进一步在此过程中引入第三个模型。这样,引入更多模型的过程就会持续下去,直到我们得到一个完整的训练数据集,模型可以通过该数据集进行正确的预测。

Boosting算法的步骤:

增强算法有以下几个重要步骤:

考虑具有不同数据点的数据集并对其进行初始化。

现在,为每个数据点赋予相同的权重。

假设该权重作为模型的输入。

识别错误分类的数据点。

增加步骤4中数据点的权重。

如果获得适当的输出,则终止此过程,否则再次执行步骤2和3。

例子:

假设我们有三个不同的模型及其预测,并且它们以完全不同的方式工作。例如,线性回归模型显示数据中的线性关系,而决策树模型尝试捕获数据中的非线性关系,如下图所示。

增强机器学习中的算法

机器学习中主要有4种boosting算法。具体如下:

梯度提升机(GBM)

极限梯度提升机(XGBM)

轻型GBM

猫助推器

机器学习中的GBM是什么?

梯度提升机(GBM)是机器学习中最流行的前向学习集成方法之一。它是构建回归和分类任务预测模型的强大技术。

GBM帮助我们获得弱预测模型(例如决策树)集合形式的预测模型。每当决策树作为弱学习器执行时,生成的算法就称为梯度增强树。

它使我们能够结合来自各种学习器模型的预测,并构建具有正确预测的最终预测模型。

但这里可能会出现一个问题,如果我们应用相同的算法,那么多个决策树如何能够比单个决策树提供更好的预测?此外,每个决策树如何从相同的数据中捕获不同的信息?

GBM是如何运作的?

一般来说,大多数监督学习算法都基于单一预测模型,例如线性回归、惩罚回归模型、决策树等。但是机器学习中也有一些监督算法依赖于通过集成将各种模型组合在一起。换句话说,当多个基本模型贡献其预测时,所有预测的平均值将通过增强算法进行调整。

梯度增强机由以下3个要素组成:

损失函数

学习能力较弱

加法模型

让我们详细了解这三个要素。

1.损失函数:

尽管如此,机器学习中有很多损失函数,可以根据要解决的任务类型来使用。损失函数的使用是根据条件分布的鲁棒性等具体特征的需求来估计的。在我们的任务中使用损失函数时,我们必须指定损失函数和计算相应负梯度的函数。一旦我们得到了这两个函数,它们就可以很容易地实现到梯度提升机中。然而,已经为GBM算法提出了几种损失函数。

损失函数的分类:

根据响应变量y的类型,损失函数可以分为以下不同类型:

连续响应,y∈R:

高斯L2损失函数

拉普拉斯L1损失函数

Huber损失函数,指定δ

分位数损失函数,指定α

分类响应,y∈{0,1}:

二项式损失函数

Adaboost损失函数

其他响应变量系列:

生存模型的损失函数

损失函数计数数据

自定义损失函数

2.弱学习者:

弱学习器是基础学习器模型,可以从过去的错误中学习,并帮助构建强大的预测模型设计,以增强机器学习中的算法。一般来说,决策树在增强算法中充当弱学习器。

Boosting被定义为持续改进基础模型输出的框架。许多梯度增强应用程序允许您“插入”各种类别的弱学习器供您使用。因此,决策树最常用于弱(基础)学习器。

如何训练弱学习者:

下面是训练弱学习器以提高其性能的序列,其中每棵树都与前一棵树的残差位于序列中。此外,我们引入每棵新树,以便它可以从前一棵树的错误中学习。具体如下:

考虑一个数据集并在其中拟合决策树。

F1(x)=y

用前一棵树的最大误差来拟合下一棵决策树。

h1(x)=yF1(x)

通过在步骤1和2中添加这棵新树,将其添加到算法中。

F2(x)=F1(x)+h1(x)

再次将下一个决策树与前一个决策树的残差进行拟合。

h2(x)=yF2(x)

重复我们在步骤3中所做的相同操作。

F3(x)=F2(x)+h2(x)

继续这个过程,直到某种机制(即交叉验证)告诉我们停止。这里的最终模型是b个个体树的阶段性加性模型:

f(x)=BΣb=1fb(x)

因此,树是贪婪地构建的,根据基尼等纯度分数选择最佳分割点或最小化损失。

3.加法模型:

加性模型被定义为向模型添加树。尽管我们不应该一次添加多棵树,但必须只添加一棵树,这样模型中的现有树就不会改变。此外,我们还可以通过添加树来选择梯度下降法来减少损失。

该方法也称为函数梯度下降或函数梯度下降。

极限梯度提升机(XGBM)

XGBM使用各种正则化技术来减少模型的欠拟合或过拟合,这也比梯度增强机更能提高模型性能。

XGBM遵循每个节点的并行处理,而GBM则不然,这使得它比梯度增强机更快。

XGBM帮助我们摆脱缺失值的插补,因为默认情况下模型会处理它。它自行了解这些值是否应该位于右侧节点或左侧节点中。

光梯度增强机(LightGBM)

LightGBM是梯度增强机的升级版,因其效率高且速度快。与GBM和XGBM不同,它可以处理大量数据而没有任何复杂性。另一方面,它不适合那些数量较少的数据点。

LightGBM更喜欢树节点的叶向生长,而不是水平生长。此外,在lightGBM中,主节点被分裂为两个辅助节点,然后选择一个辅助节点进行分裂。辅助节点的这种分裂取决于两个节点之间哪个具有更高的损耗。

因此,由于叶向分割,在给定大量数据的情况下,光梯度提升机(LGBM)算法始终优于其他算法。

CATBOOST

catboost算法主要用于处理数据集中的分类特征。尽管GBM、XGBM和LightGBM算法适用于数值数据集,但Catboost旨在将分类变量处理为数值数据。因此,catboost算法包含一个重要的预处理步骤,用于将分类特征转换为任何其他算法中不存在的数值变量。

Boosting算法的优点:

增强算法遵循集成学习,这使得模型能够给出更准确的预测,这是不可超越的。

Boosting算法比其他算法灵活得多,因为它可以优化不同的损失函数并提供多种超参数调整选项。

它不需要数据预处理,因为它适用于数值变量和分类变量。

它不需要对数据集中的缺失值进行插补,它会自动处理缺失的数据。

Boosting算法的缺点:

以下是boosting算法的一些缺点:

提升算法可能会导致过度拟合以及过分强调异常值。

这是一种耗时且内存耗尽的算法。

尽管可以使用各种工具轻松解决这个问题,但本质上解释性较差。

结论:

通过这种方式,我们学习了机器学习中预测建模的增强算法。此外,我们还讨论了ML中使用的各种重要的boosting算法,例如GBM、XGBM、lightGBM和Catboost。此外,我们还了解了各种组件(损失函数、弱学习器和加性模型)以及GBM如何与它们配合使用。Boosting算法如何有利于在现实场景中的部署等。

THE END
1.AlphaGo背后的秘密——深度增强学习(DRL)前沿算法解析2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世石,引起了全世界的广泛关注,人工智能进一步被推到了风口浪尖。而其中的深度增强学习算法是AlphaGo的核心,也是通用人工智能的实现关键。本文将带领大家了解深度增强学习的前沿算法思想,领略人工智能的核心奥秘。 前言 https://cloud.tencent.com/developer/article/1144210
2.一种增强深度学习算法鲁棒性的优化方法和系统与流程技术实现要素:本发明旨在解决现有技术中利用训练数据学习得到的模型可能难以适用于测试数据的技术问题,提供一种增强深度学习算法鲁棒性的优化方法和系统。本发明的实施例提供一种增强深度学习算法鲁棒性的优化方法,所述优化方法包括以下步骤:根据预设的卷积核维度对样本数据的卷积核进行特征提取,得到卷积结果;对所述卷积结果https://www.xjishu.com/zhuanli/55/201610542650.html
3.增强学习ReinforcementLearning经典算法梳理1:policyandvalue本文深入探讨了增强学习中的两种经典算法——Policy Iteration和Value Iteration,详细阐述了它们的工作原理、迭代过程以及在策略评估与改进上的区别。文章还提及异步更新的重要性,并介绍了其在深度强化学习中的应用。 摘要由CSDN通过智能技术生成 前言 就目前来看,深度增强学习(DeepReinforcement Learning)中的很多方法都是基https://blog.csdn.net/songrotek/article/details/51378582
4.图像增强算法机器学习图像增强算法研究jiecho的技术博客不同于传统的图像增强算法,如线性、非线性变换、图像锐化等只能增强图像的某一类特征,如压缩图像的动态范围,或增强图像的边缘等,Retinex可以在动态范围压缩、边缘增强和颜色恒常三方面达到平衡,可以对各种不同类型的图像进行自适应性地增强,在很多方面得到了广泛的应用。https://blog.51cto.com/u_12902/8023281
5.增强学习(一)要怎么做呢? 这时就可以给它设计一个增强学习算法,然后让小鸟不断的进行游戏,如果小鸟撞到柱子了,那就获得-1的回报,否则获得0回报。通过这样的若干次训练,我们最终可以得到一只飞行技能高超的小鸟,它知道在什么情况下采取什么动作来躲避柱子。 增强学习和监督学习的区别是:https://www.jianshu.com/p/7a9f9225e2b2
6.强化学习之父RichardSutton给出一个简单思路,大幅增强所有RL算法但这些强化学习方法仍有改进空间。近日,强化学习之父、阿尔伯塔大学教授 Richard Sutton 的团队低调更新了一篇论文,其中提出了一种新的通用思想 Reward Centering,并称该思想适用于几乎所有强化学习算法。这里我们将其译为「奖励聚中」。 该论文是首届强化学习会议(RLC 2024)的入选论文之一。一作 Abhishek Naik 刚刚从https://m.thepaper.cn/newsDetail_forward_29213147
7.基于深度学习的低照度图像增强算法研究因此,增强低照度图像对后续的目标识别、语义分割等任务有着重要意义。深度学习算法是通过建立类似人脑信息处理机制的网络模型,采取高效的学习策略逐级提取数据特征,拟合复杂的非线性函数。近年来,深度学习算法在图像处理领域得到广泛应用。本文将深度学习应用于低照度图像增强上,提出了三种低照度图像增强算法。针对低照度图像https://cdmd.cnki.com.cn/Article/CDMD-10703-1021819042.htm
8.AlphaZero加强版AlphaTensor问世,发现史上最快矩阵乘法算法例如研究人员提出了一种序列增强学习技术,用于在乳房X光片中使用SVM检测微钙化(MC)簇时提高性能等。ML和模式识别算法对大脑成像有重大影响,从长远来看,ML领域的技术发展和放射学可以互惠互利。深度学习(DL)是ML的一个分支,它处理的是受大脑的生物和功能启发的算法(即ANN)。DL已经迅速成为医学影像领域评估医学图像的https://www.medsci.cn/article/show_article.do?id=97c6e419443f
9.科学网—[转载]进化集成学习算法综述【摘 要】进化集成学习结合了集成学习和进化算法两方面的优势,并在机器学习、数据挖掘和模式识别等领域被广泛应用。首先对进化集成学习算法的理论基础、组成结构及分类情况进行了概述。然后根据进化算法在集成学习中的优化任务,从样本选择、特征选择、集成模型参数组合优化、集成模型结构优化以及集成模型融合策略优化几个方面https://wap.sciencenet.cn/blog-951291-1312816.html
10.人工智能产业名词解释机器学习的有关术语。指的是在机器学习或人工智能领域,训练好的机器完成目标工作的过程。 四、人工智能流行应用技术相关名词解释 1.图像识别 利用计算机对图像进行处理、分析和理解,让机器能够识别图像内容的技术,是应用深度学习算法的一种实践应用。 2.增强现实、AR http://www.zbrd.gov.cn/e/action/ShowInfo.php?classid=34&id=10317
11.BoostKit大数据业界趋势鲲鹏大数据组件增强特性和典型配置原生机器学习/图算法深度优化 Spark性能倍级提升 (3)HDFS性能加速 IO智能预取,高效取数 Spark/Hbase性能提升20% 3、鲲鹏BoostKit大数据方案架构及优势 从大数据的发展趋势可以看出,大数据对于计算能力的要求越来越高,需要有更适配大数据技术特征的计算硬件来提供更高的计算能力。TaiShan服务器的鲲鹏916系列处理器提供32核https://developer.huawei.com/consumer/cn/blog/topic/03898238728230088
12.IEEEIV2018丨徐昕:基于机器学习算法的自动驾驶汽车决策与控制三、跟大家介绍一下我们进行的一些研究的成果,也是来自我们大学的,也涉及到自动化学习的算法,用于控制和决策当中,讲到IV讲到控制和离散的状态,以及需要高效的线上学习的速度,这样才能满足表现的需求。 主要就是应用到智能车上的增强学习面对的一些挑战,首先是尾数,尾数过多,如果我们找到最好的表征,必须紧凑型的这种https://mp.ofweek.com/ai/a545673225236
13.2021届计算机科学方向毕业设计(论文)阶段性汇报基于多智能体增强学习的交互式图像分割算法研究 本课题旨在利用强化学习算法,将与人类的不断交互的信息引入到图像分割的过程中,从而实现交互式的图像分割,增加分割的准确率和收敛速度,最终降低分割所需要的标注成本。 目前现已基于开源的ppo强化学习算法进行修改,完成了算法主体部分的代码框架搭建,并且完善了数据处理、https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3943
14.多模态学习情感计算:动因框架与建议前沿领域进入2010年后,情感计算被广泛应用于教育领域[1],期间各类学习系统利用情感计算技术发展起来,代表性的有情感导学系统(ATS)。该类系统通过采集学习者面部、语音等数据,利用机器学习算法分析与处理情感信息,以识别与反馈情感状态,进而为学习者提供个性化导学策略。此外,学习情感计算也从单模态走向多模态数据融合,其中,深度学https://www.eduwest.com/html/2022/qianyanlingyu_0301/678.html
15.强化学习算法与应用综述(2)构建更智能的强化学习表示与问题表述方式. 关注算法的数学本质, 设计具有可解释性、简单的强化学习策略, 摒弃单纯“调参”手段, 从根源上拓展算法的适用性, 降低算法复杂度, 突破强化学习中探索与应用、稀疏回报和样本效率等核心问题. (3)添加记忆模块, 利用上下文信息增强强化学习的自主学习能力. 在强化学习模型https://c-s-a.org.cn/html/2020/12/7701.html