机器学习模型,全面总结!

附注:除了以上两大类模型,还有半监督学习和强化学习等其他类型的机器学习模型。半监督学习是指在有部分标签数据的情况下,结合监督学习和无监督学习的方法进行模型训练。强化学习是指通过让计算机自动与环境交互,学习出如何最大化奖励的策略。

不同的机器学习模型适用于不同的任务和场景。在实际应用中,需要根据具体的问题和数据特点选择合适的模型和方法。同时,机器学习也需要结合具体领域的知识和业务需求来进行深入研究和应用。

有监督学习通常是利用带有专家标注的标签的训练数据,学习一个从输入变量X到输入变量Y的函数映射。Y=f(X),训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分别是变量X和Y的样本值。

有监督学习可以被分为两类:

1.11线性回归

线性回归是指完全由线性变量组成的回归模型。在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

1.12逻辑回归

用于研究Y为定类数据时X和Y之间的影响关系情况,如果Y为两类比如0和1(比如1为愿意和0为不愿意,1为购买和0为不购买),此时就叫二元逻辑回归;如果Y为三类以上,此时就称为多分类逻辑回归。

自变量并不一定非要定类变量,它们也可以是定量变量。如果X是定类数据,此时需要对X进行哑变量设置。

1.13Lasso

Lasso方法是一种替代最小二乘法的压缩估计方法。Lasso的基本思想是建立一个L1正则化模型,在模型建立过程中会压缩一些系数和设定一些系数为零,当模型训练完成后,这些权值等于0的参数就可以舍去,从而使模型更为简单,并且有效防止模型过拟合。被广泛用于存在多重共线性数据的拟合和变量选择。

1.14K近邻(KNN)

KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时,一般是选择多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别。KNN做回归时,一般是选择平均法,即最近的K个样本的样本输出的平均值作为回归预测值。但它们的理论是一样的。

1.15决策树

决策树中每个内部节点都是一个分裂问题:指定了对实例的某个属性的测试,它将到达该节点的样本按照某个特定的属性进行分割,并且该节点的每一个后继分支对应于该属性的一个可能值。分类树叶节点所含样本中,其输出变量的众数就是分类结果。回归树的叶节点所含样本中,其输出变量的平均值就是预测结果。

1.16bp神经网络

bp神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。bp神经网络的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的分类错误率最小(误差平方和最小)。

BP神经网络是一种多层的前馈神经网络,其主要的特点是:信号是前向传播的,而误差是反向传播的。具体来说,对于如下的只含一个隐层的神经网络模型:

BP神经网络的过程主要分为两个阶段,第一阶段是信号的前向传播,从输入层经过隐含层,最后到达输出层;第二阶段是误差的反向传播,从输出层到隐含层,最后到输入层,依次调节隐含层到输出层的权重和偏置,输入层到隐含层的权重和偏置。

1.17支持向量机(SVM)

支持向量机回归(SVR)用非线性映射将数据映射到高维数据特征空间中,使得在高维数据特征空间中自变量与因变量具有很好的线性回归特征,在该特征空间进行拟合后再返回到原始空间。

支持向量机分类(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。

1.18朴素贝叶斯

在给定一个事件发生的前提下,计算另外一个事件发生的概率——我们将会使用贝叶斯定理。假设先验知识为d,为了计算我们的假设h为真的概率,我们将要使用如下贝叶斯定理:

该算法假定所有的变量都是相互独立的。

集成学习是一种将不同学习模型(比如分类器)的结果组合起来,通过投票或平均来进一步提高准确率。一般,对于分类问题用投票;对于回归问题用平均。这样的做法源于“众人拾材火焰高”的想法。

集成算法主要有三类:Bagging,Boosting和Stacking。本文将不谈及stacking。

1.21GBDT

GBDT是以CART回归树为基学习器的Boosting算法,是一个加法模型,它串行地训练一组CART回归树,最终对所有回归树的预测结果加和,由此得到一个强学习器,每一颗新树都拟合当前损失函数的负梯度方向。最后输出这一组回归树的加和,直接得到回归结果或者套用sigmod或者softmax函数获得二分类或者多分类结果。

1.22adaboost

adaboost给予误差率低的学习器一个高的权重,给予误差率高的学习器一个低的权重,结合弱学习器和对应的权重,生成强学习器。回归问题与分类问题算法的不同点在于误差率计算的方式不同,分类问题一般都采用0/1损失函数,而回归问题一般都是平方损失函数或者是线性损失函数。

1.23XGBoost

xgboost是GBDT的一种高效实现,和GBDT不同,xgboost给损失函数增加了正则化项;且由于有些损失函数是难以计算导数的,xgboost使用损失函数的二阶泰勒展开作为损失函数的拟合。

1.24LightGBM

1.25CatBoost

catboost是一种基于对称决策树算法的GBDT框架,主要解决的痛点是高效合理地处理类别型特征和处理梯度偏差、预测偏移问题,提高算法的准确性和泛化能力。

1.26随机森林

随机森林分类在生成众多决策树的过程中,是通过对建模数据集的样本观测和特征变量分别进行随机抽样,每次抽样结果均为一棵树,且每棵树都会生成符合自身属性的规则和分类结果(判断值),而森林最终集成所有决策树的规则和分类结果(判断值),实现随机森林算法的分类(回归)。

1.27ExtraTrees

extra-trees(极其随机的森林)和随机森林非常类似,这里的“及其随机”表现在决策树的结点划分上,它干脆直接使用随机的特征和随机的阈值划分,这样我们每一棵决策树形状、差异就会更大、更随机。

无监督学习问题处理的是,只有输入变量X没有相应输出变量的训练数据。它利用没有专家标注训练数据,对数据的结构建模。

将相似的样本划分为一个簇(cluster)。与分类问题不同,聚类问题预先并不知道类别,自然训练数据也没有类别的标签。

2.11K-means算法

聚类分析是一种基于中心的聚类算法(K均值聚类),通过迭代,将样本分到K个类中,使得每个样本与其所属类的中心或均值的距离之和最小。与分层聚类等按照字段进行聚类的算法不同的是,快速聚类分析是按照样本进行聚类。

2.12分层聚类

分层聚类法作为聚类的一种,是对给定数据对象的集合进行层次分解,根据分层分解采用的分解策略。层次聚类算法按数据分层建立簇,形成一棵以簇为节点的树。如果按自底向上进行层次分解,则称为凝聚的层次聚类,比如AGNES。而按自顶向下的进行层次分解,则称为分裂法层次聚类,比如DIANA。一般用的比较多的是凝聚层次聚类。

降维指减少数据的维度同时保证不丢失有意义的信息。利用特征提取方法和特征选择方法,可以达到降维的效果。特征选择是指选择原始变量的子集。特征提取是将数据从高纬度转换到低纬度。广为熟知的主成分分析算法就是特征提取的方法。

2.21PCA主成分分析

2.22SVD奇异值分解

2.23LDA线性判别

线性判别的原理是将样本投影到一条直线上,使得同类样本的投影点尽可能接近,不同样本的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的直线上,再根据投影点的位置来确定新样本的类别。

上一篇:

下一篇:

14个文本转图像AIAPI

什么是API定义?

前端需要的免费在线API接口

API对现代网上银行至关重要的10个理由

10个搜索引擎结果页面(SERP)API

幂简集成是创新的API接口平台,一站搜索、试用、集成国内外API接口。

THE END
1.机器学习特征工程,全面指南!51CTO博客特征机器学习特征工程和选择是将数据转化为最佳表示的艺术,以大大提升机器学习的效果。本指南是初学者的简明参考,提供了最简单但广泛使用的特征工程和选择技术。 1 基本概念 1.1 什么是机器学习 机器学习是让计算机在没有明确编程的情况下进行操作的学科——阿瑟·塞缪尔 机器学习是一种数据科学技术,它帮助计算机从https://blog.51cto.com/u_15671528/12853750
2.Microsoft机器学习产品和技术概述Azure Data Science Virtual Machine使用预安装的数据科学工具的虚拟机映像使用 Jupyter、R 和 Python 等工具在自己的 VM 上开发机器学习解决方案。 ML.NET开源的跨平台机器学习 SDK开发适用于 .NET 应用程序的机器学习解决方案。 Windows AIWindows 设备上的已训练模型的推理引擎将人工智能功能集成到 Windows 应用程序https://docs.microsoft.com/zh-cn/azure/machine-learning/service/overview-more-machine-learning
3.人工智能基础机器学习入门指南机器学习是一种数据分析技术,它允许计算机系统通过经验自动改善其性能。这种方法的核心在于算法,这些算法能够从数据中学习,并根据这些数据做出预测或决策。 为何需要学机器学习? 在现代数字化时代,数据驱动的决策变得越来越重要。然而,处理和分析大量复杂的数据集并非易事。因此,了解和掌握机器学习技术对于任何希望利用大数https://www.206sk8xl.cn/zhi-neng/596412.html
4.ACC.24丨聚焦血脂领域,盘点即将公布的最新研究进展!医药新闻1118. It's not just About the LDL: Complexities in Cholesterol Management 北京时间:23:00 ESOPHAGEAL INVOLVEMENT OF STATIN-INDUCED NECROTIZING AUTOIMMUNE MYOSITIS, A HARD PILL TO SWALLOW 难以吞咽的他汀类药物诱导的坏死性自身免疫性肌炎的食管受累 https://bydrug.pharmcube.com/news/detail/f32d3541817104045c1a61f05ffaf772
5.50Gbit/sEPON中基于预测的多波长带宽分配算法期刊[3]苏彩玉,万海斌.基于改进机器学习的无人机中继通信数据调度控制研究[J].计算机测量与控制.2024,32(5).DOI:10.16526/j.cnki.11-4762/tp.2024.05.016. 光通信研究 北大核心 ISSN:1005-8788 年,卷(期):2021(5) 所属栏目:光通信系统与网络技术 https://d.wanfangdata.com.cn/periodical/gtxyj202105003
6.GitHubpassats/GitHubChineseTopskywind3000/awesome-cheatsheets 超级速查表 - 编程语言、框架和开发工具的速查表,单个文件包含一切你需要知道的东西 ? 6.2k Shell 08/12 248deeplearning-ai/machine-learning-yearning-cn Machine Learning Yearning 中文版 - 《机器学习训练秘籍》 - Andrew Ng 著 6.2k CSS 04/05 249yifeikong/reverse-https://github.com/passats/GitHub-Chinese-Top-Charts/tree/0d1513dd64f6d985a72d257b7672bcdd8a4aa348
7.PyTorch2.2中文官方教程(三)(2)布客飞龙 | 7月前 | 机器学习/深度学习 PyTorch 算法框架/工具 PyTorch 2.2 中文官方教程(十八)(4) PyTorch 2.2 中文官方教程(十八) 112 1 1 布客飞龙 | 7月前 | PyTorch 算法框架/工具 异构计算 PyTorch 2.2 中文官方教程(二十)(4) PyTorch 2.2 中文官方教程(二十) 130 0 0 布客飞龙 | 7https://developer.aliyun.com/article/1482488
8.一直r198it‘snotatwowayplottype怎么办?求助各位大神,一作图他就提示r198 it‘s not a twoway plot type怎么办? code 如下 twoway (connected m_employmentrate year2 if graphobs == 1 & T==1, m(O) lc(navy) mc(navy)) /// > (connected m_employmentrate year2 if graphobs == 1 & T==0, m(Th) lc(maroon) mc(maroon)) https://bbs.pinggu.org/jg/kaoyankaobo_kaoyan_6363201_1.html
9.机器学习:开启智能未来的钥匙腾讯云开发者社区机器学习作为人工智能的核心方法,通过分析数据中的隐藏规律,让计算机从中获取新的经验和知识,不断提升和改善自身性能,从而像人一样根据所学知识做出决策。 机器学习涉及概率论、统计学、微积分、代数学、算法复杂度理论等多门学科,是一门多领域交叉学科。其应用范围极为广泛,涵盖自然语言处理、图像识别、推荐系统、金融https://cloud.tencent.com/developer/article/2478495
10.第21届WebbyAwards威比奖广告与媒体类获奖作品精选由于公众社交媒体上是不允许发布裸露的照片,所以这次活动主题" CHECK IT BEFORE IT'S REMOVED " 显然一语双关,巧妙类比 Facbook 和 Instagram 严格的审查制度,让年轻女性从中感受到此事的急迫性。 Agency: DDB Group Germany Best User Experience 最佳用户体验/https://www.digitaling.com/articles/37419.html
11.杰夫贝佐斯写给股东们的信It'sAllAboutLongTerm“我们正处在显而易见的大趋势中:机器学习和人工智能。” “大部分机器学习带来的影响都是这样,潜移默化地改变了我们的核心的运作方式。” /高速决策/ “绝对不要使用一刀切的决策流程,很多决策都是有回路的,这些决策的过程可以更轻量化。” “不同意,但执行。” https://www.jianshu.com/p/ffc4a1af8669
12.It’sabinaryworld,这是一个要和不要的世界我认为,随着推荐算法,机器学习以及真人工智能的进步,我们人类正在通过一个又一个号称”更懂你“的应用程式,逐渐把绝大多数用户的生物大脑转化为机械开关:你就说你要还是不要,剩下的你不用管,怎么做你更不用管。换句话说,我们逐渐贡献我们的各种数据给机器,以换来在每一个场景下的”傻瓜化“。https://www.tmtpost.com/177723.html
13.nvidialogoNeMo Curator and Cosmos Tokenizers Supercharge Developers Just announced—NVIDIA NeMo? will support end-to-end pipeline for developing multimodal models. Generative AI?|?Blog Consulting Giants Team With NVIDIA for the Era of AI IT giants creating jobs, training over half a million developershttps://www.nvidia.com/
14.Askforadoctorasquicklyaspossibleandtellhimit'sa( )是机器学习中一种基于对数据进行表征学习的方法,是一种能够模拟出人脑的神经结构的机器学习方法 A. 人工智能 B. 深度学习 C. 人工神经网络 查看完整题目与答案 下列指标中,与顾客目标有关的是() A. 提高产品质量 B. 股票收益性 C. 工资水平 D. 降低产品价格 E. 改善服务水平https://www.shuashuati.com/ti/b754531da3f74b2aafe4c0e590a248eb.html?fm=bdbds854b5134c61c52f14b3b1c74b696bd26
15.位华人科学家当选占比超20%,获75000美元科研奖金Simon Shaolei Du (杜少雷),华盛顿大学 杜少雷目前是华盛顿大学 Paul G. Allen 计算机科学与工程学院的助理教授。他的研究兴趣广泛地集中在机器学习方面,如深度学习、表征学习和强化学习。 在入职华盛顿大学之前,他曾是普林斯顿高级研究所的博士后,导师是 Sanjeev Arora。他还在 CMU 获得了博士学位,导师是 Aarti Singhhttps://www.ithome.com/0/751/327.htm
16.文本分类(1)文本预处理文本分类it's替换为tis预处理过程中需要把英文缩写进行替换,如it’s和it is是等价的,won’t和will not也是等价的,等等。 text = "The story loses its bite in a last-minute happy ending that's even less plausible than the rest of the picture ." text.replace("that's", "that is") https://blog.csdn.net/weixin_44766179/article/details/89855100
17.分词技术(精选十篇)[1]http://forfuture1978.iteye.com/blog/691017. [2]费洪晓,康松林,朱小娟,等.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,(7):67-68. [3]吴应良,韦刚,李海.一种基于N-gram模型和机器学习的汉语分词算法[J].电子信息学报,2001,23(11):1148-1153. https://www.360wenmi.com/f/cnkeyotdwqmm.html
18.最强通用棋类AI,AlphaZero强化学习算法解读the best moves can involve sacrificing in the short-term to have better gains in the long-term. In the Dots and Boxes game, sometimes it’s better not to score a box to avoid gaining another turn, and instead, force the move back to the opponent. We would then have to tune our evalhttps://www.flyai.com/article/770
19.otter水獭实时英语音频翻译软件教育优惠edu邮箱注册申请直接用edu教育邮箱注册一个otter.ai账户,上面的教育优惠图里,点击里面蓝色框内容“Get Otter now, it’s free” edu电子邮件会收到一封Otter官方发来的确认邮件,请确认您的电邮地址 点击下面的按钮,以验证ajones@xxxx.edu是您在注册过程中提供的电子邮件地址。 登录主页 我们验证邮箱成功后会进入到Otter个人主页页https://www.liout.com/otter%E6%B0%B4%E7%8D%AD%E5%AE%9E%E6%97%B6%E8%8B%B1%E8%AF%AD%E9%9F%B3%E9%A2%91%E7%BF%BB%E8%AF%91%E8%BD%AF%E4%BB%B6%E6%95%99%E8%82%B2%E4%BC%98%E6%83%A0edu%E9%82%AE%E7%AE%B1%E6%B3%A8%E5%86%8C%E7%94%B3.html
20.译科技什么?!有人模仿你的脸,还有人模仿你全身?新闻频道例如,一个人在深度换脸视频中戴了与其不相配的耳环。而在2018年9月,人工智能基金会筹集了1000万美元,通过机器学习和人类调解员创建了一个识别深度换脸和其他恶意内容的工具。 但是,托马斯仍然怀疑技术是否能完全解决深度换脸的问题,不管它们采取什么形式。她认为建立更好的系统来识别深度换脸是有价值的,但她重申,其他https://news.hexun.com/2019-09-29/198722790.html
21.awesomegoshield star:152 贝叶斯文本分类器,具有灵活的tokenizers和存储后端。 go-fann star:112 快速人工神经网络(FANN)库的Go bindings。 go-featureprocessing star:88 快速和方便的特征处理,低延迟机器学习在Go。 goscore star:85 为预言模型标记语言(PMML)实现的评分API。 gonet star:77 基于go的神经网络。 https://gitea.mrx.ltd/Go-pkg/awesome-go-cn/src/commit/718c7bcaa421d50c5aba70af947383044aaa9dd3/README.md
22.姑息治疗:不只是临终关怀MOOC中国Easing Physical Symptoms: It's Not Just Hospice Anymore Palliative care provides important support for people living with serious or life-limiting illnesses and their family caregivers. In this course, you will learn to use symptom assessment tools to better understand which symptoms are present andhttps://www.cmooc.com/course/23173.html
23.Here’swhyApplebelievesit’sanAIleader—andwhyitIt's used for live translation in iOS 14. Apple It's used for live translation in iOS 14.Apple AI is behind the automatic positioning of home screen widgets. Apple AI is behind the automatic positioning of home screen widgets.Apple http://arstechnica.com/gadgets/2020/08/apple-explains-how-it-uses-machine-learning-across-ios-and-soon-macos/
24.it’s+dangerous+to+Don’t+run+on+the+road为什么要Don’t句子 “it’s dangerous to Don’t run on the road” 包含了一个错误。正确的表达应该是:1. “It’s dangerous to run on the road”:这句话表示在道路上跑步是危险的,提醒人们不要在道路上跑步,因为可能会发生交通事故或其他危险。2. “Don’t run on the road”:这是一句明确的命令https://wen.baidu.com/question/1807380912271782507.html