基于随机森林算法的机器学习分类研究综述AReviewofMachineLearningClassificationBasedonRandomForestAlgorithm

基于随机森林算法的机器学习分类研究综述

向进勇1,2,王振华1,2,邓芸芸1,2

1伊犁师范大学网络安全与信息技术学院,新疆伊宁

2伊犁师范大学伊犁河谷智能计算研究与应用重点实验室,新疆伊宁

收稿日期:2023年4月18日;录用日期:2024年2月23日;发布日期:2024年2月29日

摘要

机器学习是实现人工智能的重要技术,随机森林算法是机器学习的代表算法之一。随机森林算法以简单、有效而闻名工业界和学术界,它是基于决策树的分类器,通过投票选择最优的分类树。随机森林算法有可变重要性度量、包外误差、近似度等优秀特性,因此随机森林被广泛的应用到分类算法中。目前,不仅在医学、农业、自然语言处理等领域被广泛提及,而且在垃圾信息分类、入侵检测、内容信息过滤、情感分析等方面都有广泛的应用。本文主要介绍了随机森林的构建过程以及随机森林的研究现状,主要从分类性能、应用领域以及分类效果加以介绍,分析随机森林算法优缺点以及研究人员对随机森林算法的改进,希望通过分析能够让初学随机森林算法的研究人员掌握随机森林的理论基础。

关键词

决策树,随机森林,机器学习

AReviewofMachineLearningClassificationBasedonRandomForestAlgorithm

JinyongXiang1,2,ZhenhuaWang1,2,YunyunDeng1,2

1SchoolofCyberSecurityandInformationTechnology,YiliNormalUniversity,YiningXinjiang

2KeyLaboratoryofIntelligentComputingResearchandApplication,YiliNormalUniversity,YiningXinjiang

Received:Apr.18th,2023;accepted:Feb.23rd,2024;published:Feb.29th,2024

ABSTRACT

Keywords:DecisionTrees,RandomForests,MachineLearning

ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY4.0).

1.引言

2.理论背景

大数据时代背景下,由于数据量巨大,存在许多分类困难的问题,(Zebari等人[6],2020b)许多传统的分类算法在某些情况下不能得到理想的结果,随机森林分类算法在某些分类问题上表现出理想的分类效果,随机森林本质上由一组决策数构成,将决策树的结果合并成最终的结果。研究人员(Schonlau&Zou等人[11],2020)证明随机森林可以限制机器学习中过度拟合现象并且不会因为很小的偏差而造成很大的误差,这就是随机森林最大的优点。(Han等人[12],2019年;Zhou等人[13],2020年)利用随机森林中最小化方差对多个数据样本进行训练。

2.1.决策树

决策树根据属性(特征)将一个结点划分成两个或多个子节点,(Kumar等人[14],2016)证明制作子节点的方式可以扩大后续子节点的同质性。(Li等人[15],2019)证明决策树可以在所有的属性上划分节点,然后选择最同质的子节点进行分裂。随机森林本质上是由多个决策树组成,决策树是构成随机森林的基本分类器。

Figure1.Decisiontreetrainingflowchart

2.2.随机森林

Figure2.Flowchartofrandomforest

Table1.Advantagesanddisadvantagesofrandomforestalgorithm

2.3.随机森林算法

Figure3.Processofrandomforesttraining

随机森林的算法的基本步骤如下:

随机森林作为机器学习中主要的分类器之一,它是由许多的独立同分布的决策树构成决策树主要研究样本的规律。(Bingzhen等人[25],2020)具体步骤如下,在随机森林算法中,主要有以下两个步骤,一个是随机森林的形成,另一个是对结果进行投票。在这里,首先公开随机森林构建的伪代码(ComputerScience&Engineering&GZSCCETBhatinda,Punjab,India[26],2017):

1.从完整的“m”个特征中随机选择“K”个特征,其中k<

2.使用最佳分割点计算“K”个特征中的节点“d”。

3.用最佳划分将数据划分为子节点。

4.重复执行1到3,直到节点数达到“n”。

5.重复步骤1到4“n”次创建“n”个树从而构建一个森林。

根据生成的随机森林分类器,我们对数据进行预测。用于随机森林预测的伪代码如下所示:获取测试特征使用每个随机生成的决策树来预测结果并存储预期结果(目标)。对每个预测目标进行投票考虑票数最多的预测目标作为随机森林算法的最终预测结果。

决策公式[(Das等人[10],2007)]使用公式1所示。

Table2.Improvedrandomforestalgorithm

此外,Saenz-Cogollo&Agelli(2020)[34]提出了从单导联心电图导出的时域特征是由其数据质量严格选择的,并且通过采用(AAMI)和患者间范式原则。分类任务中最具辨别力的特征被认为是相对于R-R间隔和QRS复合波主波宽度的归一化特征。凭借前六名最具洞察力的特征和一个40树RF分类器,产生了最好的结果。MIT-BIH心律失常数据库测量的结果是NB、SVEB和VEB组的平均精度为96.14%,个人F1评级分别为97.97%、73.06%和90.85%。根据在可比条件下测试的最先进方法,结果是迄今为止记录的最佳性能之一。研究结果不仅表明RF是一种出色的心跳分类方法,而且还表明实现最先进的效率所需的特征相对较少。

此外,Chai&Zhao(n.d.)[35]提出了一种现代的OBRF学习方法由OBRF-BM和OBRF-DIL(具有双增量学习能力的多类倾斜随机森林)组成。计划的系统通过分析测量倾斜的超平面代价来衡量合适的功能和分裂阈值。另外,将决策节点特性投影到一个随机的更高维空间中,该空间将进一步的随机性注入了集合模型,并从提升OBRF输出。相比之下,以样本增量和类增量的情况创建渐进方法,以使预定义的模型有效,而无需艰苦的再修订。经验发现表明,OBRF的出色效率建议。InternationalConferenceonArtificialIntelligenceandComputerVision国际人工智能和计算机视觉会议(2020年)[36]提到,随机森林是配备数据子样本的决策树的变化,是使用不采样和过度采样的。作者对比了来自评估模型的不同要求的拟合指标,并评估了研究内外的结果。研究结果表明,使用比初始研究小的不平衡子样本的随机森林策略显示出相对于医学数据集使用的随机森林的更高效率和变化。

汤圣君等[37]针对现有三维点云数据分割分类方法存在分类目标内部不一致的问题,提出一种超体素随机森林与LSTM神经网络联合优化的室内点云高精度分类方法。根据超体素结构具备内部特征一致性的特点,对原始点云进行超体素划分,并以超体素为基本单元进行多元特征计算,搭建室内点云超体素随机森林分类模型,实现点云数据的粗分类。在公开数据集中对13类要素的分类精度可达到83.2。

徐精诚等[38]提出特征选择技术与随机森林相结合的算法用于DDoS攻击检测。这样不仅可以进行样本降维,以降低训练成本和提高训练模型精度同时将特征选择算法嵌入随机森林的单个基学习器,将特征子集搜索范围由全部特征缩小到单个基学习器对应特征,在提高两种算法耦合性的同时提高了模型精度。

4.比较和讨论

5.结论

本文概述了随机森林及其在分类模型中的性能。随机森林是一个集成分类器,它包括多个分类器,用过去的数据集预测类标签值。随机森林构建速度快,预测速度更快。它们不需要任何交叉验证或完全可并行化。随机森林算法通常比单个分类器更准确。它可以在没有预处理的情况下处理数据,这意味着数据不需要重新缩放或转换。然而,作为一种广泛使用的算法,在提高分类精度方面值得进一步研究。

基金项目

校级项目资助(2022YSYB007)国家自然科学基金资助项目(62266046)。

THE END
1.转载机器学习算法综述(入门)转载-机器学习算法综述(入门) 学习了一个学期机器学习算法,从什么都不懂到对十个机器学习算法有一定的了解,下面总结一下十大机器学习算法,从算法的概念、原理、优点、缺点、应用等方面来总结,如果有错误的地方,欢迎指出。 目录 1.决策树 2.线性回归 3.逻辑回归https://blog.csdn.net/dy_zheng/article/details/101673765
2.17个机器学习的常用算法!腾讯云开发者社区17 个机器学习的常用算法! 1. 监督式学习: 在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”,对手写数字识别中的“1“,”2“,”3“,”4“等。在建立预测模型的时候,监督式学习建立一个学习过程,将预测结果与“训练数据”的https://cloud.tencent.com/developer/article/1874962
3.科学网—[转载]进化集成学习算法综述[转载]进化集成学习算法综述 胡毅1, 瞿博阳2, 梁静1, 王杰1, 王艳丽1 1 郑州大学电气工程学院,河南 郑州 450001 2 中原工学院电子信息学院,河南 郑州 450007 【摘 要】进化集成学习结合了集成学习和进化算法两方面的优势,并在机器学习、数据挖掘和模式识别等领域被广泛应用。首先对进化集成学习算法的理论基础、https://wap.sciencenet.cn/blog-951291-1312816.html
4.机器学习算法的分布式实现研究综述.docxMapReduce以及Spark.它们实现了不同的并行编程模型:消息传递或者数据并行.本文首先介绍了分布式计算和机器学习的基本概念,并以逻辑回归为例说明了一般迭代算法的求解过程.然后分别介绍了各种分布式框架的体系设计,编程接口,以及迭代算发在其中实现的过程.最后比较了三种框架的异同,并未来展望了分布式框架在机器学习中的应用https://www.renrendoc.com/paper/227177230.html
5.可扩展机器学习的并行与分布式优化算法综述算法评价标准和并行计算模型对每种算法的具体优化策略进行对比分析.通过综述研究发现:各种优化算法大多是对传统机器学习的凸函数问题进行优化, 不同算法再根据自身特点对目标函数的不同特性进行优化, 对于非凸函数的优化求解研究较少; 在多核、分布式环境下, 基于不同并行计算模型对不同算法进行改进, 通过并行化来提高https://jos.org.cn/html/2018/1/5376.htm
6.近三年光谱结合化学计量学分析技术综述文献的评述(一)资讯中心3化学计量学算法与策略 3.1概述 Wang等从实用性的角度综述了近十年来在现代光谱分析中应用的各种化学计量学方法,包括光谱预处理、波长(变量)选择、数据降维、定量校正、模式识别、模型传递、模型维护和多光谱数据融合等[38]。Houhou等重点介绍了化学计量学、机器学习和深度学习等人工智能方法用于光谱和成像分析的最新研究https://www.instrument.com.cn/news/20221116/639999.shtml
7.聚类算法综述范文8篇(全文)聚类算法综述 第1篇 关键词:聚类分析,增量聚类,生物智能,数据流 聚类就是将数据点划分成组同时满足组内数据点之间的相似性尽可能大, 不同组的数据点之间的相似性尽可能小[1], 聚类在数据挖掘中起着非常重要的作用, 并广泛地应用于模式识别、计算机可视化、模糊控制等领域。 https://www.99xueshu.com/w/ikey8bb2k59r.html
8.人工智能算法综述人工智能算法综述昵称17040482 2015-10-09 1 目 录 摘要2 人工智能算法综述 通信工程专业 摘要:随着人工智能再当今科学技术中的飞速发展和应用,人工智能算法的开发学习及应用也随之越来越广泛,它介绍了当前存在的一些人工智能算法,阐述了其工作原理和特点并对其加以比较、评价,还对产生背景、应用领域加以说明,同时又对http://www.360doc.com/content/15/1009/10/17040482_504355165.shtml
9.如何实现机器学习算法·MachineLearningMastery博客文章翻译文献综述:在实施算法时,您正在进行研究。您被迫查找并阅读该算法的多个规范和正式描述。您还可能找到并编写代码审查算法的其他实现,以确认您的理解。您正在进行有针对性的研究,并学习如何阅读和实际使用研究出版物。 处理 您可以通过一个过程来加速您从头开始学习和实施机器学习算法的能力。您实施的算法越多,您获得的https://www.kancloud.cn/apachecn/ml-mastery-zh/1952239
10.可解释性机器学习综述可解释性最强的算法可解释性 机器学习 综述 可解释性最强的算法 模型可解释性汇总 简介 目前很多机器学习模型可以做出非常好的预测,但是它们并不能很好地解释他们是如何进行预测的,很多数据科学家都很难知晓为什么该算法会得到这样的预测结果。这是非常致命的,因为如果我们无法知道某个算法是如何进行预测,那么我们将很难将其前一道其它的https://blog.51cto.com/u_16213629/7824612
11.一文看懂机器学习「3种学习方法+7个实操步骤+15种常见算法」机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。 所以,机器学习不是某种具体的算法,而是很多算法的统称。 机器学习包含了很多种不同的算法,深度学习就是其中之一,其他方法包括决策树,聚类,贝叶斯等。 https://easyai.tech/ai-definition/machine-learning/
12.多名专家学者来我校作学术报告4月15日,应我校理学院邀请,北京应用物理与计算数学研究所信号与数据处理技术研究联合实验室主任尹俊平研究员来我校讲学,在东九A-528学术报告厅为我校师生作了题为《数据科学算法综述及其典型应用》的学术报告,并就学科专业及学科建设等方面进行交流。 报告中,尹俊平以大数据时代为背景,介绍了统计分析、统计学习以及机https://news.swust.edu.cn/2019/0417/c295a106006/page.htm
13.可信机器学习的公平性综述.pdf自主智能无人系统科学中心可信人工智能研究所上海通讯作者王祥丰金博王晓玲摘要人工智能在与人类生活息息相关的场景中自主决策时正逐渐面临法律或伦理的问题或风险可信机器学习是建立安全人工智能系统的核心技术是人工智能领域的热门研究方向而公平性是可信机器学习的重要考量公平性旨在研究机器学习算法决策对个人或群体不存在因https://max.book118.com/html/2021/0315/8140025010003061.shtm
14.GitHub机器学习的数学基础 CS229线性代数与概率论基础 机器学习基础 快速入门 推荐顺序由前到后 机器学习算法地图 机器学习 吴恩达 Coursera个人笔记 && 视频(含官方笔记) CS229 课程讲义中文翻译 && 机器学习 吴恩达 cs229个人笔记 && 官网(笔记) && 视频(中文字幕) 百页机器学习 深入理解 推荐顺序由前到后 《统计https://github.com/jiying61306/DeepLearning