经典机器学习算法

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2023.02.27湖南

LightGBM是轻量级(Light)的梯度提升机器(GBM),是GBDT模型的另一个进化版本。它延续了XGBoost的那一套集成学习的方式,相对于xgboost,具有训练速度快和内存占用率低的特点。

1.1XGBoost不足之处

XGBoost的核心思想:xgboost是属于boosting家族,是GBDT算法的一个工程实现,在模型的训练过程中是聚焦残差,在目标函数中使用了二阶泰勒展开并加入了正则,在决策树的生成过程中采用了精确贪心的思路,寻找最佳分裂点的时候,使用了预排序算法,对所有特征都按照特征的数值进行预排序,然后遍历所有特征上的所有分裂点位,计算按照这些候选分裂点分裂后的全部样本的目标函数增益,找到最大的那个增益对应的特征和候选分裂点位,从而进行分裂。这样一层一层的完成建树过程,xgboost训练的时候,是通过加法的方式进行训练,也就是每一次通过聚焦残差训练一棵树出来,最后的预测结果是所有树的加和表示。

(1)分裂点的数量

(2)样本的数量

(3)特征数量

LightGBM正是从这三个角度出发,对XGBoost算法进行优化。分别对应了lgb的三大算法思想。

(1)为了解决分裂点数量过多的问题,LightGBM采用直方图算法。

(2)为了解决样本数量过多的问题,Lightgbm采用单边梯度抽样算法。

(3)为了解决特征数量过多的问题,Lightgbm采用互斥特征捆绑算法

1.2直方图算法

直方图算法说白了就是对特征进行分桶。先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图,并根据特征所在的bin对其进行梯度累加和个数统计,在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。然后根据直方图的离散值,遍历寻找最优的分割点。

bins的数量是远小于样本不同取值的数量的,所以分桶之后要遍历的分裂点的个数会少了很多,减少了计算量。用图形表示如下:

这个过程其实就是直方图统计,将大规模的数据放在了直方图中。也就是分箱的过程。

特征离散化具有很多优点,如存储方便、运算更快、鲁棒性强、模型更加稳定等。对于直方图算法来说有以下两个优点:

(1)占用更少的内存。

XGboost需要用32位的浮点数去存储特征值,并用32位的整型去存储索引,而Lightgbm的直方图算法一般用8位的整型保存特征离散化后的值,内存消耗可以降低为原来的1/8。

(2)计算代价更小

1.3直方图作差加速

LightGBM另一个优化是Histogram(直方图)做差加速。一个叶子的直方图可以由它的父亲节点的直方图与它兄弟的直方图做差得到,在速度上可以提升一倍。在实际构建树的过程中,LightGBM还可以先计算直方图小的叶子节点,然后利用直方图做差来获得直方图大的叶子节点,这样就可以用非常微小的代价得到它兄弟叶子的直方图。

举例如下:

XGBoost在进行预排序时只考虑非零值进行加速,而LightGBM也采用类似策略:只用非零特征构建直方图。

直方图算法优点:起到正则化的效果,有效地防止模型的过拟合(bin数量决定了正则化的程度,bin越少惩罚越严重,欠拟合风险越高)。直方图算法可以起到的作用就是可以减小分割点的数量,加快计算。

与XGboost的分桶算法对比:

xgboost的分桶是基于hi的分布去找候选分割点,这样带来的一个问题就是每一层划分完了之后,下一次依然需要构建这样的直方图,毕竟样本被划分到了不同的节点中,二阶导分布也就变了。所以xgboost在每一层都得动态构建直方图,因为它这个直方图算法不是针对某个特定的feature的,而是所有feature共享一个直方图(每个样本权重的二阶导)。而lightgbm对每个特征都有一个直方图,这样构建一次就OK,并且分裂的时候还能通过直方图作差进行加速。故xgboost的直方图算法是不如lightgbm的直方图算法快的。

1.4单边梯度抽样算法(GOSS)

单边梯度抽样算法(Gradient-basedOne-SideSampling)是从减少样本的角度出发,排除大部分权重小的样本,仅用剩下的样本计算信息增益,它是一种在减少数据和保证精度上平衡的算法。

AdaBoost中,样本权重是数据重要性的指标。然而在GBDT中没有原始样本权重,不能应用权重采样。幸运的是,我们观察到GBDT中每个数据都有不同的梯度值,对采样十分有用。即梯度小的样本,训练误差也比较小,说明数据已经被模型学习得很好了,直接想法就是丢掉这部分梯度小的数据。然而这样做会改变数据的分布,将会影响训练模型的精确度,为了避免此问题,提出了GOSS算法。

GOSS算法的亮点在于:根据样本的权重信息对样本进行抽样,减少了大量梯度小的样本,但是还能不会过多的改变数据集的分布

通过采样的方式,选出了两个梯度大的6号和7号,然后又从剩下的样本里面随机选了2个梯度小的4号和2号,如果直接把另外四个给删掉的话,这时候会改变数据的分布,但应该怎么做呢?也就是乘以一个常数(1-a)/b,如下图所示:

梯度小的样本乘上相应的权重之后,我们在基于采样样本的估计直方图中可以发现Ni的总个数依然是8个,虽然6个梯度小的样本中去掉了4个,留下了两个。但是这2个样本在梯度上和个数上都进行了3倍的放大,所以可以防止采样对原数数据分布造成太大的影响,这也就是论文里面说的将更多的注意力放在训练不足的样本上的原因。

PS:小雨姑娘机器学习笔记中的那个例子挺有意思:GOSS的感觉就好像一个公寓里本来住了10个人,感觉太挤了,赶走了6个人,但是剩下的人要分摊他们6个人的房租。

1.5互斥特征捆绑算法(EFB)

使用EFB算法后的特征维度为:

接下来通过例子说明:

特征捆绑过程类似one-hot的逆过程。图片上通过特征捆绑把4个特征捆绑成一个特征。减少了维度。那么算法是怎么判定哪些特征应该绑在一起(buildbundled)?

EFB算法利用特征和特征间的关系构造一个加权无向图,构建图的过程中采用贪心策略,主要有以下几个步骤:

(1)将特征看成图中的各个顶点,如果两个特征之间存在同时不为0的样本,用一条边将这两个特征连接起来,特征同时不为0的样本的个数为边的权重。

(3)设置一个超参数阈值,对每一个特征,遍历已有的特征簇,如果发现该特征加入到特征簇中的矛盾数不超过某一个阈值,则将该特征加入到该簇中。如果该特征不能加入任何一个已有的特征簇,则新建一个簇,将该特征加入到新建的簇中。

通过上述过程,Lightgbm挑出了一些特征绑在一起,那么怎么把特征绑为一个(mergefeature)呢?

特征合并算法,其关键在于原始特征能从合并的特征中分离出来。通过在特征值中加入一个偏置常量来解决。

比如,我们在bundle中绑定了两个特征A和B,A特征的原始取值为区间[0,10),B特征的原始取值为区间[0,20),我们可以在B特征的取值上加一个偏置常量10,将其取值范围变为[10,30),绑定后的特征取值范围为[0,30),这样就可以放心的融合特征A和B了。

通过EFB,减少了特征的数量,提高了训练速度,同时,对于类别型特征,如果进行one-hot编码,那么EFB算法会将其重新捆绑成为一个特征,所以在特征工程中没必要进行one-hot。

回顾GDBT的树生长算法:按层生长的决策树生长策略,如下图所示:

遍历一次数据可以同时分裂同一层的叶子,容易进行多线程优化,也好控制模型复杂度,不容易过拟合。缺点在于:不加区别的对待同一层的叶子,但是很多叶子的分裂增益较低,没有必要进行搜索和分裂,导致了一些无用的计算开销。

而Lightgbm采用带有深度限制的按叶子生长(leaf-wise)算法。如下图所示:

该策略每次从当前所有叶子中,找到分裂增益最大的一个叶子,然后分裂,如此循环。Level-wise相比,优点在于:在分裂次数相同的情况下,Leaf-wise可以降低更多的误差,得到更好的精度。缺点在于:可能会长出比较深的决策树,产生过拟合。因此LightGBM会在Leaf-wise之上增加了一个最大深度的限制,在保证高效率的同时防止过拟合。

1.7LightGBM的工程优化

1.7.1直接支持类别特征

对于类别型特征机器学习算法一般是通过one-hot来处理的,但对于决策树算法来说不推荐使用one-hot,因为当类别种类较多时,会使得:

(1)产生样本切分不平衡的问题,切分增益会非常小。使用one-hot编码,意味着在每一个决策节点上只能使用onevsrest(例如是不是狗,是不是猫等)的切分方式。例如,动物类别切分后,会产生是否狗,是否猫等一系列特征,这一系列特征上只有少量样本为111,大量样本为000,这时候切分样本会产生不平衡,这意味着切分增益也会很小。较小的那个切分样本集,它占总样本的比例太小,无论增益多大,乘以该比例之后几乎可以忽略;较大的那个拆分样本集,它几乎就是原始的样本集,增益几乎为零。比较直观的理解就是不平衡的切分和不切分没有区别。

(2)会影响决策树的学习。因为就算可以对这个类别特征进行切分,独热编码也会把数据切分到很多零散的小空间上,如下图左边所示。而决策树学习时利用的是统计信息,在这些数据量小的空间上,统计信息不准确,学习效果会变差。但如果使用下图右边的切分方法,数据会被切分到两个比较大的空间,进一步的学习也会更好。下图右边叶子节点的含义是X=A或者X=C放到左孩子,其余放到右孩子。

从上面可以看到,(sum(y)/count(y))为类别的均值。当然,这个方法很容易过拟合,所以LightGBM里面还增加了很多对于这个方法的约束和正则化。实验结果证明,这个方法可以使训练速度加速8倍。

1.7.2特征并行

特征并行的主要思想是不同机器在不同的特征集合上分别寻找最优的分割点,然后在机器间同步最优的分割点。XGBoost使用的就是这种特征并行方法。这种特征并行方法有个很大的缺点:就是对数据进行垂直划分,每台机器所含数据不同,然后使用不同机器找到不同特征的最优分裂点,划分结果需要通过通信告知每台机器,增加了额外的复杂度。

LightGBM则不进行数据垂直划分,而是在每台机器上保存全部训练数据,在得到最佳划分方案后可在本地执行划分而减少了不必要的通信。具体过程如下图所示。

1.7.3数据并行

传统的数据并行策略主要为水平划分数据,让不同的机器先在本地构造直方图,然后进行全局的合并,最后在合并的直方图上面寻找最优分割点。这种数据划分有一个很大的缺点:通讯开销过大。如果使用点对点通信。

LightGBM在数据并行中使用分散规约(Reducescatter)把直方图合并的任务分摊到不同的机器,降低通信和计算,并利用直方图做差,进一步减少了一半的通信量。具体过程如下图所示。

1.7.4投票并行

基于投票的数据并行则进一步优化数据并行中的通信代价,使通信代价变成常数级别。在数据量很大的时候,使用投票并行的方式只合并部分特征的直方图从而达到降低通信量的目的,可以得到非常好的加速效果。具体过程如下图所示。

大致步骤为两步:

本地找出TopK特征,并基于投票筛选出可能是最优分割点的特征;

合并时只合并每个机器选出来的特征。

1.7.5Cache命中率优化

XGBoost对cache优化不友好,如下图所示。在预排序后,特征对梯度的访问是一种随机访问,并且不同的特征访问的顺序不一样,无法对cache进行优化。同时,在每一层长树的时候,需要随机访问一个行索引到叶子索引的数组,并且不同特征访问的顺序也不一样,也会造成较大的cachemiss。为了解决缓存命中率低的问题,XGBoost提出了缓存访问算法进行改进。

而LightGBM所使用直方图算法对Cache天生友好:

首先,所有的特征都采用相同的方式获得梯度(区别于XGBoost的不同特征通过不同的索引获得梯度),只需要对梯度进行排序并可实现连续访问,大大提高了缓存命中率;

其次,因为不需要存储行索引到叶子索引的数组,降低了存储消耗,而且也不存在CacheMiss的问题。

1.8LightGBM的优缺点

(2)LightGBM在训练过程中采用单边梯度算法过滤掉梯度小的样本,减少了大量的计算;

(3)LightGBM采用了基于Leaf-wise算法的增长策略构建树,减少了很多不必要的计算量;

(4)LightGBM采用优化后的特征并行、数据并行方法加速计算,当数据量非常大的时候还可以采用投票并行的策略;

(5)LightGBM对缓存也进行了优化,增加了缓存命中率;

内存更小

(1)LightGBM采用了直方图算法将存储特征值转变为存储bin值,且不需要特征值到样本的索引,降低了内存消耗;

(2)LightGBM在训练过程中采用互斥特征捆绑算法减少了特征数量,降低了内存消耗。

缺点

(1)可能会长出比较深的决策树,产生过拟合。因此LightGBM在Leaf-wise之上增加了一个最大深度限制,在保证高效率的同时防止过拟合;

(2)Boosting族是迭代算法,每一次迭代都根据上一次迭代的预测结果对样本进行权重调整,所以随着迭代不断进行,误差会越来越小,模型的偏差(bias)会不断降低,所以会对噪点较为敏感;

(3)在寻找最优解时,依据的是最优切分变量,没有将最优解是全部特征的综合这一理念考虑进去;

2.1分类器

样例:

fromlightgbmimportLGBMClassifierfromsklearn.datasetsimportload_irisfromlightgbmimportplot_importanceimportmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score#加载样本数据集iris=load_iris()X,y=iris.data,iris.targetX_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=12343)model=LGBMClassifier(max_depth=3,learning_rate=0.1,n_estimators=200,#使用多少个弱分类器objective='multiclass',num_class=3,booster='gbtree',min_child_weight=2,subsample=0.8,colsample_bytree=0.8,reg_alpha=0,reg_lambda=1,seed=0#随机数种子)model.fit(X_train,y_train,eval_set=[(X_train,y_train),(X_test,y_test)],verbose=100,early_stopping_rounds=50)#对测试集进行预测y_pred=model.predict(X_test)model.predict_proba#计算准确率accuracy=accuracy_score(y_test,y_pred)print('accuracy:%3.f%%'%(accuracy*100))#显示重要特征plot_importance(model)plt.show()2.2回归器

fromlightgbmimportLGBMRegressorfromlightgbmimportplot_importanceimportmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_splitfromsklearn.datasetsimportload_bostonfromsklearn.metricsimportmean_squared_error#导入数据集boston=load_boston()X,y=boston.data,boston.targetX_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)model=LGBMRegressor(boosting_type='gbdt',num_leaves=31,max_depth=-1,learning_rate=0.1,n_estimators=100,objective='regression',#默认是二分类min_split_gain=0.0,min_child_samples=20,subsample=1.0,subsample_freq=0,colsample_bytree=1.0,reg_alpha=0.0,reg_lambda=0.0,random_state=None,silent=True)model.fit(X_train,y_train,eval_set=[(X_train,y_train),(X_test,y_test)],verbose=100,early_stopping_rounds=50)#对测试集进行预测y_pred=model.predict(X_test)mse=mean_squared_error(y_test,y_pred)print('mse',mse)#显示重要特征plot_importance(model)plt.show()2.3参数及其默认

boosting_type='gbdt'

提升树的类型,常用的梯度提升方法包括gbdt、dart、goss、rf。可以尝试运行不同类型的渐变增强提升方法。

(1)、gbdt:这是传统的梯度提升决策树,也是基于XGBoost和pGBRT等优秀库背后的算法。gbdt精度高、效率高、稳定性好,目前已得到广泛的应用。但是,它的主要缺点是,在每个树节点中找到最佳分割点非常耗时,而且会消耗内存。下边其它的提升方法试图解决这个问题。

(2)、dart:即DropoutsmeetMultipleAdditiveRegressionTrees,dart利用dropout技巧(源自深度神经网络)解决过拟合的RegressionTrees,改进模型正则化。gbdt存在过度专门化(over-specialization)的问题,这意味着在以后的迭代中添加的树往往只会影响对少数实例的预测,而对其余实例的贡献则可以忽略不计。添加dropout会使树在以后的迭代中更加难以专门化那些少数的示例,从而提高性能。

它的原理是随机丢弃生成的决策树,然后再从剩下的决策树集中迭代优化提升树。它的特点是训练慢:因为随机dropout不使用用于保存预测结果的buffer,所以训练会更慢。随机导致不稳定:因为随机,早停可能不够稳定。dart与gbdt的不同点:计算下一棵树要拟合的梯度的时,仅仅随机从已经生成的树中选取一部分。注意dart添加一棵树时需要先归一化。

标准的gbdt是可靠的,但在大型数据集上速度不够快。因此goss提出了一种基于梯度的采样方法来避免搜索整个搜索空间。其实,对于每个数据实例,当梯度很小时,这意味着不用担心数据是经过良好训练的,而当梯度很大时,应该重新训练。数据实例有大的和小的渐变。因此,goss以一个大的梯度保存所有数据,并对一个小梯度的数据进行随机抽样(这就是为什么它被称为单边抽样)。这使得搜索空间更小,goss的收敛速度更快。

(4)、rf:随机森林。切记,如果将增强设置为rf,那么lightgbm算法表现为随机森林而不是增强树。根据文档可知,要使用rf,必须使用bagging_fraction和feature_fraction小于1。

objective='binary'

目标,'regression'、'binary'

metric='binary_logloss'

模型度量标准,'rmse'、'auc'、'binary_logloss'

learning_rate=0.1

学习率

n_estimators=10

拟合的树的棵树,可以理解为训练的轮数。

弱学习器的个数,其中gbdt原理是利用通过梯度不断拟合新的弱学习器,直到达到设定的弱学习器的数量。

max_depth=-1

最大树的深度。每个弱学习器也就是决策树的最大深度。

其中,-1表示不限制。

num_leavel=32

树的最大叶子数,控制模型复杂性的最重要参数之一。对比在xgboost中,一般为2^(max_depth)因LightGBM使用的是leaf-wise的算法,因此在调节树的复杂程度时,使用的是num_leaves而不是max_depth。它们之间大致换算关系:num_leaves=2^(max_depth)。即它的值的设置应该小于2^(max_depth),否则会进行警告,可能会导致过拟合。

bagging_freq=15

控制过拟合。

bagging_fraction=0.8

子样例,来控制过拟合。

可以指定每个树构建迭代使用的行数百分比。这意味着将随机选择一些行来匹配每个学习者(树)。这不仅提高了泛化能力,也提高了训练速度。

feature_fraction=0.8

子特征处理列采样,来控制过拟合。

它将在每次迭代(树)上随机选择特征子集。例如,如果将其设置为0.8,它将在训练每棵树之前选择60%的特性。它常用来加速训练和处理过拟合。

THE END
1.三种集成学习算法原理及核心公式推导本文主要介绍3种集成学习算法的原理及重要公式推导部分,包括随机森林(RandomForest)、自适应提升(AdaBoost)、梯度提升(Gradient Boosting)。仅对重点理论和公式推导环节做以简要介绍。 集成学习3大流派 01 集成学习流派 在经典机器学习场景下,当单个学习模型性能不足以有效满足算法精度时,人们开始向集成学习模型发力——https://blog.csdn.net/AAI666666/article/details/135975636
2.「机器学习」集成学习的原理算法与应用一、集成学习的原理 集成学习的核心思想是“三个臭皮匠,顶个诸葛亮”。它通过将多个个体学习器进行结合,使得整体性能超过单个学习器,从而提高了学习的效果。集成学习可以分为两种类型:同质集成和异质集成。同质集成指的是使用相同的学习算法构建多个个体学习器,而异质集成则是使用不同的学习算法构建个体学习器。集成https://baijiahao.baidu.com/s?id=1781225031906540919&wfr=spider&for=pc
3.三种集成学习算法原理及核心公式推导腾讯云开发者社区三种集成学习算法原理及核心公式推导 导读 本文主要介绍3种集成学习算法的原理及重要公式推导部分,包括随机森林(Random Forest)、自适应提升(AdaBoost)、梯度提升(Gradient Boosting)。仅对重点理论和公式推导环节做以简要介绍。 集成学习3大流派 01 集成学习流派https://cloud.tencent.com/developer/article/1745855
4.集成学习(面试准备)1、什么是集成学习 根据维基百科的说法:在统计学和机器学习中,集成学习方法使用多种学习算法来获得比单独使用任何单独的学习算法更好的预测性能。 具体说来,就是对于训练集数据,我们通过训练若干个个体学习器(弱学习器),通过一定的结合策略,就可以最终形成一个强学习器,以达到博采众长的目的。 https://www.jianshu.com/p/0bae8b16d794
5.详解Bagging算法的原理及Python实现pythonBagging(装袋算法)的集成学习方法非常简单,假设我们有一个数据集D,使用Bootstrap sample(有放回的随机采样,这里说明一下,有放回抽样是抽一个就放回一个,然后再抽,而不是这个人抽10个,再放回,下一个继续抽,它是每一个样本被抽中概率符合均匀分布)的方法取了k个数据子集(子集样本数都相等):D1,D2,…,Dkhttps://www.jb51.net/article/215053.htm
6.机器学习面试总结———(三)集成学习常用的算法包括随机森林、Adaboost、Gradient Boosting等。 24、Boosting算法的基本原理是什么 Boosting是一种集成学习方法,其基本原理是通过多个弱分类器的组合,来构建一个更为准确的分类器。 Boosting算法的基本思路是,通过对训练数据集进行多轮迭代,每轮迭代训练一个新的弱分类器,并根据分类器的表现进行样本https://developer.aliyun.com/article/1201776
7.基于Adaboost算法的输电线路舞动预警方法, 王建2, 梁允1, 熊小伏2, 翁世杰2 摘要:输电线路舞动是目前尚未被全面准确认识的世界性难题,已严重威胁输电系统的安全稳定运行。文章分析影响舞动的外界气象环境因素,并在此基础上提出一种基于Adaboost集成学习算法的输电线舞动预警方法。采用基于Gini指标的决策桩作为弱分类器,通过对多个弱分类器的训练及加权求和http://qks.cqu.edu.cn/html/cqdxzrcn/2016/1/20160105.htm
8.(十)机器学习集成学习思想概述51CTO博客一:什么是集成学习? 1:集成学习 (Ensemble Learning) 算法的基本思想:将多个分类器组合,从而实现一个预测效果更好的集成分类器。 2:工作原理:生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。 https://blog.51cto.com/u_15317888/5054480
9.TensorFlow机器学习常用算法解析和入门集成学习就是将很多分类器集成在一起,每个分类器有不同的权重,将这些分类器的分类结果合并在一起,作为最终的分类结果。最初集成方法为贝叶斯决策。 集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练,然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习https://www.w3cschool.cn/tensorflow/tensorflow-s8uq24ti.html
10.BoostKit大数据业界趋势鲲鹏大数据组件增强特性和典型配置集成学习 分布式矩阵乘法 矩阵计算是机器学习算法的核心组成部分,覆盖数据输入、算法描述、算法训练等计算过程。然而,在当前开源算法中,矩阵计算通常会成为计算瓶颈。鲲鹏BoostKit针对不同数据分布和规模下的矩阵计算场景,开展共性原理创新,在同等计算精度下,实现计算性能大幅度提升。 https://developer.huawei.com/consumer/cn/blog/topic/03898238728230088
11.科学网—[转载]进化集成学习算法综述2 中原工学院电子信息学院,河南 郑州 450007 【摘 要】进化集成学习结合了集成学习和进化算法两方面的优势,并在机器学习、数据挖掘和模式识别等领域被广泛应用。首先对进化集成学习算法的理论基础、组成结构及分类情况进行了概述。然后根据进化算法在集成学习中的优化任务,从样本选择、特征选择、集成模型参数组合优化、集https://wap.sciencenet.cn/blog-951291-1312816.html
12.九章算法精通机器学习算法理论与应用,包括传统机器学习、集成学习、大模型等。擅长授课领域:Transformer系列大模型算法及应用公开试讲课:BERT算法原理及NER实践案例 青石 讲师 10年开发经验,一线大厂技术专家,负责团队微前端、工程化工具建设 维维安 FAANG公司高级软件开发工程师/高级机器学习工程师 FAANG公司的高级软件开发工程师/http://jiuzhang.com/
13.4机器学习算法面试八股链接是一种基于boosting集成学习思想的加法模型,是一种用于回归的机器学习算法,该算法由多棵回归决策树组成,所有树的结论累加起来做最终答案。训练时采用前向分布算法进行贪婪的学习,每次迭代都学习一棵CART树来拟合之前 t-1 棵树的预测结果与训练样本真实值的残差。GBDT中的决策树是个弱模型,深度较小一般不会超过5https://www.nowcoder.com/discuss/509759767431098368
14.上海交大李金金团队:通过集成学习挖掘高性能鳍式场效应晶体管碲烯图2 模型表现及特征工程。 该项研究在第一性原理计算的基础上,研究了不同层中掺入非金属原子的α相碲烯的电子结构和迁移性能。结合集成分类算法及合理的筛选条件,最终从385个改性碲烯中确认了23个可用于制备高性能FinFET沟道的材料,并揭示了影响改性碲烯电子结构的关键因素。这种结合了理论计算和集成学习算法的新https://www.thepaper.cn/newsDetail_forward_22658407
15.集成学习机器之心1995年,Tin Kam Ho 提出了集成学习中最广为人知的算法——随机决策森林,并在几年后由Leo Breiman将随机森林方法进行系统的阐述,随机森林方法正式成为数据挖掘分类算法的重要组成部分。 1996年,Breiman 开发出 Bagging 预测器,并对其原理和训练进行了详细描述。他提出回归和分类的一个关键问题是预测方法的不稳定性——https://www.jiqizhixin.com/graph/technologies/29722de0-8501-4b01-9b73-189141b9eefd