机器学习模型,全面总结!

附注:除了以上两大类模型,还有半监督学习和强化学习等其他类型的机器学习模型。半监督学习是指在有部分标签数据的情况下,结合监督学习和无监督学习的方法进行模型训练。强化学习是指通过让计算机自动与环境交互,学习出如何最大化奖励的策略。

不同的机器学习模型适用于不同的任务和场景。在实际应用中,需要根据具体的问题和数据特点选择合适的模型和方法。同时,机器学习也需要结合具体领域的知识和业务需求来进行深入研究和应用。

有监督学习通常是利用带有专家标注的标签的训练数据,学习一个从输入变量X到输入变量Y的函数映射。Y=f(X),训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分别是变量X和Y的样本值。

有监督学习可以被分为两类:

1.11线性回归

线性回归是指完全由线性变量组成的回归模型。在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

1.12逻辑回归

用于研究Y为定类数据时X和Y之间的影响关系情况,如果Y为两类比如0和1(比如1为愿意和0为不愿意,1为购买和0为不购买),此时就叫二元逻辑回归;如果Y为三类以上,此时就称为多分类逻辑回归。

自变量并不一定非要定类变量,它们也可以是定量变量。如果X是定类数据,此时需要对X进行哑变量设置。

1.13Lasso

Lasso方法是一种替代最小二乘法的压缩估计方法。Lasso的基本思想是建立一个L1正则化模型,在模型建立过程中会压缩一些系数和设定一些系数为零,当模型训练完成后,这些权值等于0的参数就可以舍去,从而使模型更为简单,并且有效防止模型过拟合。被广泛用于存在多重共线性数据的拟合和变量选择。

1.14K近邻(KNN)

KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时,一般是选择多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别。KNN做回归时,一般是选择平均法,即最近的K个样本的样本输出的平均值作为回归预测值。但它们的理论是一样的。

1.15决策树

决策树中每个内部节点都是一个分裂问题:指定了对实例的某个属性的测试,它将到达该节点的样本按照某个特定的属性进行分割,并且该节点的每一个后继分支对应于该属性的一个可能值。分类树叶节点所含样本中,其输出变量的众数就是分类结果。回归树的叶节点所含样本中,其输出变量的平均值就是预测结果。

1.16bp神经网络

bp神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。bp神经网络的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的分类错误率最小(误差平方和最小)。

BP神经网络是一种多层的前馈神经网络,其主要的特点是:信号是前向传播的,而误差是反向传播的。具体来说,对于如下的只含一个隐层的神经网络模型:

BP神经网络的过程主要分为两个阶段,第一阶段是信号的前向传播,从输入层经过隐含层,最后到达输出层;第二阶段是误差的反向传播,从输出层到隐含层,最后到输入层,依次调节隐含层到输出层的权重和偏置,输入层到隐含层的权重和偏置。

1.17支持向量机(SVM)

支持向量机回归(SVR)用非线性映射将数据映射到高维数据特征空间中,使得在高维数据特征空间中自变量与因变量具有很好的线性回归特征,在该特征空间进行拟合后再返回到原始空间。

支持向量机分类(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。

1.18朴素贝叶斯

在给定一个事件发生的前提下,计算另外一个事件发生的概率——我们将会使用贝叶斯定理。假设先验知识为d,为了计算我们的假设h为真的概率,我们将要使用如下贝叶斯定理:

该算法假定所有的变量都是相互独立的。

集成学习是一种将不同学习模型(比如分类器)的结果组合起来,通过投票或平均来进一步提高准确率。一般,对于分类问题用投票;对于回归问题用平均。这样的做法源于“众人拾材火焰高”的想法。

集成算法主要有三类:Bagging,Boosting和Stacking。本文将不谈及stacking。

1.21GBDT

GBDT是以CART回归树为基学习器的Boosting算法,是一个加法模型,它串行地训练一组CART回归树,最终对所有回归树的预测结果加和,由此得到一个强学习器,每一颗新树都拟合当前损失函数的负梯度方向。最后输出这一组回归树的加和,直接得到回归结果或者套用sigmod或者softmax函数获得二分类或者多分类结果。

1.22adaboost

adaboost给予误差率低的学习器一个高的权重,给予误差率高的学习器一个低的权重,结合弱学习器和对应的权重,生成强学习器。回归问题与分类问题算法的不同点在于误差率计算的方式不同,分类问题一般都采用0/1损失函数,而回归问题一般都是平方损失函数或者是线性损失函数。

1.23XGBoost

xgboost是GBDT的一种高效实现,和GBDT不同,xgboost给损失函数增加了正则化项;且由于有些损失函数是难以计算导数的,xgboost使用损失函数的二阶泰勒展开作为损失函数的拟合。

1.24LightGBM

1.25CatBoost

catboost是一种基于对称决策树算法的GBDT框架,主要解决的痛点是高效合理地处理类别型特征和处理梯度偏差、预测偏移问题,提高算法的准确性和泛化能力。

1.26随机森林

随机森林分类在生成众多决策树的过程中,是通过对建模数据集的样本观测和特征变量分别进行随机抽样,每次抽样结果均为一棵树,且每棵树都会生成符合自身属性的规则和分类结果(判断值),而森林最终集成所有决策树的规则和分类结果(判断值),实现随机森林算法的分类(回归)。

1.27ExtraTrees

extra-trees(极其随机的森林)和随机森林非常类似,这里的“及其随机”表现在决策树的结点划分上,它干脆直接使用随机的特征和随机的阈值划分,这样我们每一棵决策树形状、差异就会更大、更随机。

无监督学习问题处理的是,只有输入变量X没有相应输出变量的训练数据。它利用没有专家标注训练数据,对数据的结构建模。

将相似的样本划分为一个簇(cluster)。与分类问题不同,聚类问题预先并不知道类别,自然训练数据也没有类别的标签。

2.11K-means算法

聚类分析是一种基于中心的聚类算法(K均值聚类),通过迭代,将样本分到K个类中,使得每个样本与其所属类的中心或均值的距离之和最小。与分层聚类等按照字段进行聚类的算法不同的是,快速聚类分析是按照样本进行聚类。

2.12分层聚类

分层聚类法作为聚类的一种,是对给定数据对象的集合进行层次分解,根据分层分解采用的分解策略。层次聚类算法按数据分层建立簇,形成一棵以簇为节点的树。如果按自底向上进行层次分解,则称为凝聚的层次聚类,比如AGNES。而按自顶向下的进行层次分解,则称为分裂法层次聚类,比如DIANA。一般用的比较多的是凝聚层次聚类。

降维指减少数据的维度同时保证不丢失有意义的信息。利用特征提取方法和特征选择方法,可以达到降维的效果。特征选择是指选择原始变量的子集。特征提取是将数据从高纬度转换到低纬度。广为熟知的主成分分析算法就是特征提取的方法。

2.21PCA主成分分析

2.22SVD奇异值分解

2.23LDA线性判别

线性判别的原理是将样本投影到一条直线上,使得同类样本的投影点尽可能接近,不同样本的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的直线上,再根据投影点的位置来确定新样本的类别。

上一篇:

下一篇:

14个文本转图像AIAPI

什么是API定义?

前端需要的免费在线API接口

API对现代网上银行至关重要的10个理由

10个搜索引擎结果页面(SERP)API

幂简集成是创新的API接口平台,一站搜索、试用、集成国内外API接口。

THE END
1.《机器学习实战指南:CSDN经验集成》腾讯云开发者社区数据收集:在机器学习实战中,数据收集是至关重要的第一步。可以通过多种方式获取数据,例如从数据库中提取已有的结构化数据,利用API从外部数据源获取特定格式的数据,或者使用爬虫技术从网页上抓取所需的数据。数据库提供了稳定且结构化的数据来源,适合大规模数据的存储和检索。API 则允许我们与各种在线服务进行交互,获取https://cloud.tencent.com/developer/article/2478542
2.人工智能机器学习讲义经管文库(原现金交易版人工智能机器学习讲义 https://bbs.pinggu.org/thread-13322427-1-1.html
3.西安工业大学《机器学习》2022那么,下列关于机器学习在自然语言处理中的说法错误的是()A.词袋模型将文本表示为词的集合,忽略了词的顺序和语法结构B.TF-IDF可以衡量一个词在文档中的重要性C.深度学习模型在自然语言处理中表现出色,但需要大量的训练数据和计算资源D.机器学习在自然语言处理中的应用已经非常成熟,不需要进一步的研究和发展4、在一https://www.renrendoc.com/paper/369858944.html
4.机器学习特征工程,全面指南!51CTO博客特征机器学习特征工程和选择是将数据转化为最佳表示的艺术,以大大提升机器学习的效果。本指南是初学者的简明参考,提供了最简单但广泛使用的特征工程和选择技术。 1 基本概念 1.1 什么是机器学习 机器学习是让计算机在没有明确编程的情况下进行操作的学科——阿瑟·塞缪尔 机器学习是一种数据科学技术,它帮助计算机从https://blog.51cto.com/u_15671528/12853750
5.[笔记]人工智能系统——第9章易用性不仅是文档的问题,更多的是工具中各级用户接口的设计 在自动机器学习中,易用性主要关注两类使用场景 一是用户已经有了初步的模型,如何利用工具快速调优模型至满足应用需求 二是用户没有模型,仅有应用需求和数据,工具如何协助用户获得满足需求的模型 灵活性是指用户不仅可以利用工具提供的算法快速得到效果不错的https://zhuanlan.zhihu.com/p/12741560089
6.练习:训练机器学习模型使用Model Builder 选择场景、加载数据、训练机器学习模型进行预测性维护并评估模型的性能。https://learn.microsoft.com/zh-cn/training/modules/predictive-maintenance-model-builder/5-exercise-train-model-builder/
7.机器学习中文版.pdf文档全文免费预览想预览更多内容,点击免费在线预览全文 免费在线预览全文 第一章让计算机从数据中学习将数据转化为知识三类机器学习算法第二章训练机器学习分类算法透过人 VIP免费下载 下载文档 收藏 分享赏 0 下载提示 1、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。 https://max.book118.com/html/2019/1026/6052110033002120.shtm
8.机器学习服务在线文本翻译 在线语种检测 文本类 语音语言类 文本识别 文档识别 优势 覆盖机型广 支持90%以上的ARM架构机型。 快速接入 通过ML Kit的SDK快速使用AI能力。 全球覆盖 服务可在全球范围内使用。 资源中心 开发指南 浏览最新开发指南,快速接入机器学习服务。 https://developer.huawei.com/consumer/cn/hms/huawei-mlkit
9.机器学习中文参考手册机器学习中文文档机器学习库(MLL)是一些用于分类、回归和数据聚类的类和函数。 大部分分类和回归算法是用C++类来实现。尽管这些算法有一些不同的特性(像处理missing measurements的能力,或者categorical input variables等),这些类之间有一些相同之处。这些相同之处在类 CvStatModel 中被定义,其他 ML 类都是从这个类中继承。 [ 编辑https://blog.csdn.net/Liuqz2009/article/details/47625143
10.《动手学深度学习》在线文档morein2008《动手学深度学习》在线文档 《动手学深度学习》在线文档,numpy版本:https://zh.d2l.ai/chapter_preface/preface.htmlhttps://www.cnblogs.com/aaronhoo/p/12165262.html
11.使用文档机器学习平台火山引擎官方文档中心,产品文档、快速入门、用户指南等内容,你关心的都在这里,包含火山引擎主要产品的使用手册、API或SDK手册、常见问题等必备资料,我们会不断优化,为用户带来更好的使用体验https://www.volcengine.com/docs/6459/72394
12.基于机器学习的恶意文档识别工具设计与实现恶意文档 机器学习 特征向量 虚拟沙箱https://www.cnki.com.cn/Article/CJFDTotal-XXAQ201808003.htm
13.近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。 《Brief History of Machine Learning》 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost 到随机森林、Deep Learning. https://www.open-open.com/news/view/1621439
14.机器学习找不到创新点?三种特征选择的方法包你拿下顶会!最近特征选择特别火!多次荣登各大期刊会议,例如登上Nature子刊bGGO、计算效率狂提98%的FSFS……妥妥的机器学习领域热门创新点! 通过从原始特征集中精心挑选出最相关、最有用的特征,能够显著提高模型的准确性,大大减少了过拟合的风险,降低了计算成本。 特征选择的主流策略涵盖了过滤法、包裹法、嵌入法等多种方法。为https://www.bilibili.com/read/cv40067807
15.科学计算库)第2篇:机器学习概述,学习目标附代码文档了解机器学习中模型评估的方法 知道过拟合、欠拟合发生情况 模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。 按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。 1 分类模型评估 https://www.jianshu.com/p/f82881b822e6
16.在线word文档–简便高效的在线文档编辑工具随着技术的不断进步,在线word文档将更加智能、便捷和高效。未来,它可能会加入更多的机器学习和自然语言处理功能,提供更智能的文档编辑和管理体验。 结论 在线word文档是一款强大且易用的在线文档编辑工具。它提供了丰富的编辑功能、便捷的访问和共享、自动保存和版本控制等特点。使用在线word文档,您可以更高效地创建、编https://www.huoban.com/news/post/145103.html
17.在线文档盘:在线办公文档管理的便捷之道四、在线文档盘的未来发展趋势 智能化与自动化 随着人工智能和机器学习技术的不断发展,在线文档盘将逐渐实现智能化和自动化。例如,通过智能算法实现文档的自动分类、标签推荐和智能搜索,用户可以更快速地找到所需的文档。同时,自动生成文档摘要、智能提醒和任务分配等功能也将逐渐应用到在线文档盘中,提高工作效率和协同https://box.lenovo.com/news/detail/b464a132f41e67accb5ea3c0e984ccc0.html
18.你需要的ScikitScikit-learn 中文文档已经由 ApacheCN 完成校对,这对于国内机器学习用户有非常大的帮助。该文档自 2017 年 11 月初步完成校对,目前很多细节都已经得到完善。该中文文档包含了分类、回归、聚类和降维等经典机器学习任务,并提供了完整的使用教程与 API 注释。入门读者也可以借此文档与教程从实践出发进入数据科学与机器学https://www.jiqizhixin.com/articles/2018-04-06-3
19.第二十五课:深度学习机器学习原理开发文档能用机器学习解决的task有: Classi?cation, Classi?cation with missing inputs, Regression,Transcription(例如光学字符识别),Machine translation,Structured output(例如语法分析,Anomaly detection,Synthesis and sampling,Imputation of missing values,Denoising(去噪声),Density estimation or probability mass functionhttps://www.wenjiangs.com/?p=99642
20.在线文档翻译Ai工具箱吱意是一款可以适用于图片翻译、文档翻译,视频翻译等场景的在线工具。同时,吱意还提供多模态翻译和智能配音,AI写作,AI成画等AIGC人工智能创作等服务。 百度翻译·AI同传 网课/在线会议实时翻译工具 火山翻译 字节跳动旗下机器翻译品牌 Sonix 一个自动转录、翻译和字幕平台,快速、准确、实惠。它可以将音频和视频转换为https://tools.aiydn.com/aitag/%E5%9C%A8%E7%BA%BF%E6%96%87%E6%A1%A3%E7%BF%BB%E8%AF%91.html
21.资源帖丨字节跳动技术Leader们推荐的学习资源英文原版:http://incompleteideas.net/book/the-book.html相关课程:http://www.davidsilver.uk/teaching/UC伯克利CS285:Deep Reinforcement Learning主讲:Sergey Levine这套课程包含23节课程和5个课后作业,适合对强化学习、机器学习有一定了解的人。链接:http://rail.eecs.berkeley.edu/deeprlcourse/斯坦福CS 330:https://maimai.cn/article/detail?fid=1589935106&efid=ROE93ZNmM8sYE6S4rjpy5w
22.pytorch开源机器学习框架中文文档 Docs and tutorials in Chinese, translated by the community. (PyTorch) Tutorials in Korean, translated by the community. 日本語(PyTorch) Tutorials in Japanese, translated by the community. Maintainers Learn about the PyTorch core and module maintainers. https://pytorch.org/
23.易转换在机器学习中,您可以使用易转换来处理不同数据集的特征,并尝试找到最佳的特征组合以提高模型的准确率和泛化能力。 在数据挖掘中,您可以使用易转换来改善数据分布、缩减特征空间、增加特征的可解释性等。 在工业、通信系统、医疗电子、航空航天等领域,您可以使用易转换来实现高精度、高速的模拟信号转换,例如使用pipelinehttps://pidoutv.com/sites/11612.html
24.deeply翻译器官网,在线网页版,电脑版app下载,文档翻译神器deeply翻译器官网,在线网页版,电脑版app下载,文档翻译神器 什么是deeply? DeepL(deeply是错误的写法哈)是一家德国公司开发的机器翻译工具,被认为是全球最准确的翻译软件之一。它利用深度学习和人工智能技术来提供高质量、准确性极高的翻译服务。DeepL能够处理多种语言之间的翻译,包括但不限于英语、法语、德语、西班牙语https://feizhuke.com/sites/deeply-fanyi.html
25.OpenMLDB:OpenMLDB是一个开源机器学习数据库,面向机器学习应用OpenMLDB 文档 Roadmap 社区贡献 加入社区 学术论文 用户列表 OpenMLDB 是一个开源机器学习数据库,提供线上线下一致的生产级特征平台。 1. 设计理念 在人工智能工程化落地过程中,企业的数据和工程化团队 95% 的时间精力会被数据处理、数据校验等相关工作所消耗。为了解决该痛点,头部企业会花费上千小时自研构建数据与https://gitee.com/paradigm4/OpenMLDB
26.免费在线OCR免费在线OCR服务允许您将PDF文档转换为MS Word文件,扫描图像为可编辑的文本格式,并从JPEG / TIFF / BMP文件中提取文本https://www.onlineocr.net/zh_hans/
27.最大的在线天然产物数据库:Coconut数据库尽管付出很多努力,但NP结构说明的原始出版物与其参考文献,来源生物及其地理位置之间的大多数联系仍然缺失。解决这些空白的方法是手动管理,但即使使用了此方法,COCONUT中的数据量也很少。另一个解决方案是无监督机器学习,解析现代同行评审的文献和书籍,以重新建立NP结构与其出处之间的联系。https://www.douban.com/note/785568836/
28.文字识别的机器学习模型研究与应用该技术可以应用于在线文档的生成和在线文档的检索。 (三)语音转文字 语音转文字技术是指将语音内容转化为文字内容以便于电子文本的存储和处理。这一技术适用于录音的文档转录和对话的文字转换。 四、结论 本文介绍了机器学习在文字识别技术中的重要性、神经网络算法的应用和调优策略,以及文字识别技术在智能搜索、数字化https://wenku.baidu.com/view/904bf6580366f5335a8102d276a20029bc64635b.html
29.scikitScikit-learn(以前称为scikits.learn,也称为sklearn)是针对Python 编程语言的免费软件机器学习库。它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度提升,k均值和DBSCAN。Scikit-learn 中文文档由CDA数据科学研究院翻译,扫码关注获取更多信息。http://www.scikit-learn.org.cn/