机器学习模型,全面总结!

附注:除了以上两大类模型,还有半监督学习和强化学习等其他类型的机器学习模型。半监督学习是指在有部分标签数据的情况下,结合监督学习和无监督学习的方法进行模型训练。强化学习是指通过让计算机自动与环境交互,学习出如何最大化奖励的策略。

不同的机器学习模型适用于不同的任务和场景。在实际应用中,需要根据具体的问题和数据特点选择合适的模型和方法。同时,机器学习也需要结合具体领域的知识和业务需求来进行深入研究和应用。

有监督学习通常是利用带有专家标注的标签的训练数据,学习一个从输入变量X到输入变量Y的函数映射。Y=f(X),训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分别是变量X和Y的样本值。

有监督学习可以被分为两类:

1.11线性回归

线性回归是指完全由线性变量组成的回归模型。在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

1.12逻辑回归

用于研究Y为定类数据时X和Y之间的影响关系情况,如果Y为两类比如0和1(比如1为愿意和0为不愿意,1为购买和0为不购买),此时就叫二元逻辑回归;如果Y为三类以上,此时就称为多分类逻辑回归。

自变量并不一定非要定类变量,它们也可以是定量变量。如果X是定类数据,此时需要对X进行哑变量设置。

1.13Lasso

Lasso方法是一种替代最小二乘法的压缩估计方法。Lasso的基本思想是建立一个L1正则化模型,在模型建立过程中会压缩一些系数和设定一些系数为零,当模型训练完成后,这些权值等于0的参数就可以舍去,从而使模型更为简单,并且有效防止模型过拟合。被广泛用于存在多重共线性数据的拟合和变量选择。

1.14K近邻(KNN)

KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时,一般是选择多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别。KNN做回归时,一般是选择平均法,即最近的K个样本的样本输出的平均值作为回归预测值。但它们的理论是一样的。

1.15决策树

决策树中每个内部节点都是一个分裂问题:指定了对实例的某个属性的测试,它将到达该节点的样本按照某个特定的属性进行分割,并且该节点的每一个后继分支对应于该属性的一个可能值。分类树叶节点所含样本中,其输出变量的众数就是分类结果。回归树的叶节点所含样本中,其输出变量的平均值就是预测结果。

1.16bp神经网络

bp神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。bp神经网络的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的分类错误率最小(误差平方和最小)。

BP神经网络是一种多层的前馈神经网络,其主要的特点是:信号是前向传播的,而误差是反向传播的。具体来说,对于如下的只含一个隐层的神经网络模型:

BP神经网络的过程主要分为两个阶段,第一阶段是信号的前向传播,从输入层经过隐含层,最后到达输出层;第二阶段是误差的反向传播,从输出层到隐含层,最后到输入层,依次调节隐含层到输出层的权重和偏置,输入层到隐含层的权重和偏置。

1.17支持向量机(SVM)

支持向量机回归(SVR)用非线性映射将数据映射到高维数据特征空间中,使得在高维数据特征空间中自变量与因变量具有很好的线性回归特征,在该特征空间进行拟合后再返回到原始空间。

支持向量机分类(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。

1.18朴素贝叶斯

在给定一个事件发生的前提下,计算另外一个事件发生的概率——我们将会使用贝叶斯定理。假设先验知识为d,为了计算我们的假设h为真的概率,我们将要使用如下贝叶斯定理:

该算法假定所有的变量都是相互独立的。

集成学习是一种将不同学习模型(比如分类器)的结果组合起来,通过投票或平均来进一步提高准确率。一般,对于分类问题用投票;对于回归问题用平均。这样的做法源于“众人拾材火焰高”的想法。

集成算法主要有三类:Bagging,Boosting和Stacking。本文将不谈及stacking。

1.21GBDT

GBDT是以CART回归树为基学习器的Boosting算法,是一个加法模型,它串行地训练一组CART回归树,最终对所有回归树的预测结果加和,由此得到一个强学习器,每一颗新树都拟合当前损失函数的负梯度方向。最后输出这一组回归树的加和,直接得到回归结果或者套用sigmod或者softmax函数获得二分类或者多分类结果。

1.22adaboost

adaboost给予误差率低的学习器一个高的权重,给予误差率高的学习器一个低的权重,结合弱学习器和对应的权重,生成强学习器。回归问题与分类问题算法的不同点在于误差率计算的方式不同,分类问题一般都采用0/1损失函数,而回归问题一般都是平方损失函数或者是线性损失函数。

1.23XGBoost

xgboost是GBDT的一种高效实现,和GBDT不同,xgboost给损失函数增加了正则化项;且由于有些损失函数是难以计算导数的,xgboost使用损失函数的二阶泰勒展开作为损失函数的拟合。

1.24LightGBM

1.25CatBoost

catboost是一种基于对称决策树算法的GBDT框架,主要解决的痛点是高效合理地处理类别型特征和处理梯度偏差、预测偏移问题,提高算法的准确性和泛化能力。

1.26随机森林

随机森林分类在生成众多决策树的过程中,是通过对建模数据集的样本观测和特征变量分别进行随机抽样,每次抽样结果均为一棵树,且每棵树都会生成符合自身属性的规则和分类结果(判断值),而森林最终集成所有决策树的规则和分类结果(判断值),实现随机森林算法的分类(回归)。

1.27ExtraTrees

extra-trees(极其随机的森林)和随机森林非常类似,这里的“及其随机”表现在决策树的结点划分上,它干脆直接使用随机的特征和随机的阈值划分,这样我们每一棵决策树形状、差异就会更大、更随机。

无监督学习问题处理的是,只有输入变量X没有相应输出变量的训练数据。它利用没有专家标注训练数据,对数据的结构建模。

将相似的样本划分为一个簇(cluster)。与分类问题不同,聚类问题预先并不知道类别,自然训练数据也没有类别的标签。

2.11K-means算法

聚类分析是一种基于中心的聚类算法(K均值聚类),通过迭代,将样本分到K个类中,使得每个样本与其所属类的中心或均值的距离之和最小。与分层聚类等按照字段进行聚类的算法不同的是,快速聚类分析是按照样本进行聚类。

2.12分层聚类

分层聚类法作为聚类的一种,是对给定数据对象的集合进行层次分解,根据分层分解采用的分解策略。层次聚类算法按数据分层建立簇,形成一棵以簇为节点的树。如果按自底向上进行层次分解,则称为凝聚的层次聚类,比如AGNES。而按自顶向下的进行层次分解,则称为分裂法层次聚类,比如DIANA。一般用的比较多的是凝聚层次聚类。

降维指减少数据的维度同时保证不丢失有意义的信息。利用特征提取方法和特征选择方法,可以达到降维的效果。特征选择是指选择原始变量的子集。特征提取是将数据从高纬度转换到低纬度。广为熟知的主成分分析算法就是特征提取的方法。

2.21PCA主成分分析

2.22SVD奇异值分解

2.23LDA线性判别

线性判别的原理是将样本投影到一条直线上,使得同类样本的投影点尽可能接近,不同样本的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的直线上,再根据投影点的位置来确定新样本的类别。

上一篇:

下一篇:

14个文本转图像AIAPI

什么是API定义?

前端需要的免费在线API接口

API对现代网上银行至关重要的10个理由

10个搜索引擎结果页面(SERP)API

幂简集成是创新的API接口平台,一站搜索、试用、集成国内外API接口。

THE END
1.机器学习知识点全面总结机器学习知识点总结特征工程:是指在机器学习中对原始数据进行转换、组合和选择等处理,以提取更有用的特征或属性,以帮助机器学习算法更好地理解和处理数据。简而言之,特征工程就是对原始数据进行预处理,以提取有用信息来辅助机器学习。 模型选择:根据问题的特点和数据的特征选择适合的机器学习算法和模型。 https://blog.csdn.net/qq_63159704/article/details/136137934
2.一文理解机器学习三要素腾讯云开发者社区机器学习,作为人工智能的重要分支,使计算机能够通过数据自动学习并不断优化模型,以提高预测和决策的准确性和效率。机器学习方法可以概述如下: 出发点是给定的、有限的训练数据集,假设这些数据遵循独立同分布。同时,假定待学习的模型属于一个特定的函数集合,即假设空间。 https://cloud.tencent.com/developer/article/2421011
3.机器学习算法可分为:()()和()。机器学习算法可分为:()、()和()。正确答案:监督学习|无监督学习;非监督学习|强化学习 点击查看答案进入小程序搜题你可能喜欢监督学习算法通常解决()和()等类型的问题。 点击查看答案进入小程序搜题 无监督学习算法通常解决()和()等类型的问题。 点击查看答案进入小程序搜题https://m.ppkao.com/wangke/daan/00ea4c6c462240dfbddb036289adc3f4
4.Python机器学习(原书第3版)最新章节塞巴斯蒂安·拉施卡著虽然感知器规则提供了良好且易用的入门级机器学习分类算法,但其最大缺点是,如果类不是完全线性可分的,那么它将永远不收敛。前一节的分类任务就是该场景的一个示例。直观地说,原因是权重在不断更新,因为每次迭代至少会有一个错误分类样本存在。当然,我们也可以改变学习速率,增加迭代次数,但是要小心感知器永远都不会https://m.zhangyue.com/readbook/12540913/42.html
5.机器学习中有监督学习和无监督学习的区别表现在什么方面?机器学习主要分为:有监督学习,无监督学习,以及半监督学习等。小编今天给大家分享的主要是有监督学习和无监督学习的比较,希望对于大家机器学习有所帮助。 一、首先来了解一下有监督学习和无监督学习的概念 1、有监督学习(supervised learning)是指从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以https://www.cda.cn/bigdata/28000.html
6.计算机工程与设计杂志中国航天科工集团第二研究院706所主办为综合利用基于情感词典和基于机器学习的两类情感分类方法的优点,提出一种基于情感词汇与机器学习的方面级情感分类方法。通过选取少量情感倾向与评价对象无关的情感词汇对评价搭配进行情感分类;通过构建机器学习分类器,以评价短语对各类别的互信息占比作为分类器的分类概率权重,进行加权计算,选择加权后分类概率最大的类别作https://www.youfabiao.com/jsjgcysj/202001/
7.IJTCS8月17日,“多智能体机器学习”分论坛由北京大学李文新教授、中国科学院自动化研究所张海峰副研究员主持。8月18日,“计算经济学”分论坛由上海交通大学陶表帅助理教授主持。小编为大家带来两个分论坛报告的精彩回顾。 多智能体机器学习分论坛精彩回顾 A Continuum of Solutions to Cooperative Multi-Agent Reinforcementhttps://cfcs.pku.edu.cn/news/240892.htm
8.基于有限积分法和机器学习的场强分布预测方法本文提出了一种基于有限积分法和机器学习的场强预测混合方案,我们在CST中建立地形或建筑物的最基本单元—三角面,仿真计算平面波(射线就是平面波)入射时三角面周围的电磁场分布,找出影响场强分布的特征,仿真在不同输入条件下的输出结果。对三角面周围的空间分为近场区和远场区。近场区通过机器学习模型来预测场强,而https://cdmd.cnki.com.cn/Article/CDMD-10013-1018116500.htm
9.机器学习中的分类和回归王哲MGGAI机器学习中的分类和回归是两种主要的预测建模任务,它们分别处理不同类型的输出变量。 分类(Classification): 定义:分类是一种监督学习任务,其目标是将输入数据映射到预定义的类别中。在分类问题中,模型的输出是一个离散的类别标签。 例子:例如,垃圾邮件过滤是一个二分类问题,其中模型需要将每封电子邮件分为"垃圾邮件https://www.cnblogs.com/wzbzk/p/17834194.html
10.北京航空航天大学2025研究生考试大纲:人工智能学院!北京航空航天大学人工智能学院招收2025年硕士初试自命题科目考试大纲已公布,842人工智能基础综合试卷总分150分,共包括三部分内容。其中机器学习部分为必考内容,占90分;算法设计与分析部分和自动控制原理部分为选考内容,选考内容二选一,均占60分。若同时选考算法设计与https://www.gaodun.com/kaoyan/1653530.html
11.机器学习中常用的几种回归算法及其特点回归是统计学中最有力的工具之一,机器学习监督学习算法分为分类算法和回归算法两种。回归算法用于连续型分布预测,可以预测连续型数据而不仅仅是离散的类别标签。 回归是统计学中最有力的工具之一,机器学习监督学习算法分为分类算法和回归算法两种。回归算法用于连续型分布预测,可以预测连续型数据而不仅仅是离散的类别标签https://www.51cto.com/article/775005.html
12.第28分会:AI辅助的化学反应和复杂体系模拟日程表第28分会:AI辅助的化学反应和复杂体系模拟 主席:胡培君、李磊 编号论文标题报告人时间操作 2024年06月15日 第1时段 口头报告(Oral) 国际会堂:3层301 胡培君 28-KN-001基于量子计算精度的蛋白质动力学模拟及机器学习力场张增辉09:50-10:20关注 28-I-001基于深度势能模型和图神经网络的固态电解质缺陷效应和矿物浮https://www.chemsoc.org.cn/meeting/34th/programs.php?topicid=1343
13.腾讯AI开放平台连接云边端设备、算法和数据,提供全栈式 AI 应用开发、部署、管理等功能 腾讯云TI平台 一站式机器学习生态服务平台,涵盖数据预处理、模型训练、评估、预测全流程 图像识别语音技术自然语言处理AI平台服务智能机器人 限时促销 活动专区 人脸核身特惠活动2折 https://ai.qq.com/
14.CiteScore2022正式发布,AIOpen首获即达22.5分,三大高被引论文值得一AI Open 成立于 2020 年,主要分享关于人工智能理论及其应用的知识处理和前瞻性观点,期刊主编为清华大学计算机系的唐杰教授。 AI Open 三大高被引论文解读 1.图神经网络:方法与应用回顾(Graph neural networks: A review of methods and applications) 近年来,由于图(graph)的强大表达能力,利用机器学习分析图的研究越https://www.thepaper.cn/newsDetail_forward_23420835
15.MindSpore官网9 MindQuantum:快速上手量子模拟与量子机器学习 MindQuantum 最新0.5版本中提供独立的量子模拟模块Simulator,用户可快速对自定义量子线路进行模拟演化并对量子态进行采样,极大方便开发者在MindQuantum环境中设计和验证自己的量子算法。此外我们新增了量子线路和量子态采样的展示模块,开发者也能直观的对量子算法进行修改。 https://www.mindspore.cn/news/newschildren?id=967
16.家长会英语老师发言稿(通用21篇)期中已经结束了,各位家长不要过分纠结在分数的高低。话说回来,从这次练习中不难发现部分同学掌握的不是很到位,以致于在考试中出现了重大失误。这个和平时的学习习惯是分不开的。在座的各位,都明白英语的重要性和必要性。时代真的不同了。以前说有钱能走遍天下,现在会说英语才能游遍世界!https://www.unjs.com/fanwenwang/fayangao/20221210153520_6089196.html