机器学习基础知识点全面总结!算法聚类贝叶斯神经网络

机器学习按照模型类型分为监督学习模型、无监督学习模型两大类。

1.有监督学习

有监督学习通常是利用带有专家标注的标签的训练数据,学习一个从输入变量X到输入变量Y的函数映射。Y=f(X),训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分别是变量X和Y的样本值。

有监督学习可以被分为两类:

除此之外,集成学习也是一种有监督学习。它是将多个不同的相对较弱的机器学习模型的预测组合起来,用来预测新的样本。

1.1单模型

1.11线性回归

线性回归是指完全由线性变量组成的回归模型。在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。

如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

1.12逻辑回归

用于研究Y为定类数据时X和Y之间的影响关系情况,如果Y为两类比如0和1(比如1为愿意和0为不愿意,1为购买和0为不购买),此时就叫二元逻辑回归;如果Y为三类以上,此时就称为多分类逻辑回归。

自变量并不一定非要定类变量,它们也可以是定量变量。如果X是定类数据,此时需要对X进行哑变量设置。

1.13Lasso

Lasso方法是一种替代最小二乘法的压缩估计方法。Lasso的基本思想是建立一个L1正则化模型,在模型建立过程中会压缩一些系数和设定一些系数为零,当模型训练完成后,这些权值等于0的参数就可以舍去,从而使模型更为简单,并且有效防止模型过拟合。被广泛用于存在多重共线性数据的拟合和变量选择。

1.14K近邻(KNN)

KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时,一般是选择多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别。

KNN做回归时,一般是选择平均法,即最近的K个样本的样本输出的平均值作为回归预测值。但它们的理论是一样的。

1.15决策树

决策树中每个内部节点都是一个分裂问题:指定了对实例的某个属性的测试,它将到达该节点的样本按照某个特定的属性进行分割,并且该节点的每一个后继分支对应于该属性的一个可能值。

分类树叶节点所含样本中,其输出变量的众数就是分类结果。回归树的叶节点所含样本中,其输出变量的平均值就是预测结果。

1.16bp神经网络

bp神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。bp神经网络的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的分类错误率最小(误差平方和最小)。

BP神经网络是一种多层的前馈神经网络,其主要的特点是:信号是前向传播的,而误差是反向传播的。具体来说,对于如下的只含一个隐层的神经网络模型,BP神经网络的过程主要分为两个阶段:

1.17支持向量机(SVM)

支持向量机回归(SVR)用非线性映射将数据映射到高维数据特征空间中,使得在高维数据特征空间中自变量与因变量具有很好的线性回归特征,在该特征空间进行拟合后再返回到原始空间。

支持向量机分类(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。

1.18朴素贝叶斯

在给定一个事件发生的前提下,计算另外一个事件发生的概率——我们将会使用贝叶斯定理。假设先验知识为d,为了计算我们的假设h为真的概率,我们将要使用如下贝叶斯定理:

该算法假定所有的变量都是相互独立的。

1.2集成学习

集成学习是一种将不同学习模型(比如分类器)的结果组合起来,通过投票或平均来进一步提高准确率。一般,对于分类问题用投票;对于回归问题用平均。这样的做法源于“众人拾材火焰高”的想法。

集成算法主要有三类:Bagging,Boosting和Stacking。本文将不谈及stacking。

1.21GBDT

GBDT是以CART回归树为基学习器的Boosting算法,是一个加法模型,它串行地训练一组CART回归树,最终对所有回归树的预测结果加和,由此得到一个强学习器,每一颗新树都拟合当前损失函数的负梯度方向。最后输出这一组回归树的加和,直接得到回归结果或者套用sigmod或者softmax函数获得二分类或者多分类结果。

1.22adaboost

adaboost给予误差率低的学习器一个高的权重,给予误差率高的学习器一个低的权重,结合弱学习器和对应的权重,生成强学习器。回归问题与分类问题算法的不同点在于误差率计算的方式不同,分类问题一般都采用0/1损失函数,而回归问题一般都是平方损失函数或者是线性损失函数。

1.23XGBoost

XGBoost是"极端梯度上升"(ExtremeGradientBoosting)的简称,XGBoost算法是一类由基函数与权重进行组合形成对数据拟合效果佳的合成算法。由于XGBoost模型具有较强的泛化能力、较高的拓展性、较快的运算速度等优势,从2015年提出后便受到了统计学、数据挖掘、机器学习领域的欢迎。

xgboost是GBDT的一种高效实现,和GBDT不同,xgboost给损失函数增加了正则化项;且由于有些损失函数是难以计算导数的,xgboost使用损失函数的二阶泰勒展开作为损失函数的拟合。

1.24LightGBM

1.25CatBoost

catboost是一种基于对称决策树算法的GBDT框架,主要解决的痛点是高效合理地处理类别型特征和处理梯度偏差、预测偏移问题,提高算法的准确性和泛化能力。

1.26随机森林

随机森林分类在生成众多决策树的过程中,是通过对建模数据集的样本观测和特征变量分别进行随机抽样,每次抽样结果均为一棵树,且每棵树都会生成符合自身属性的规则和分类结果(判断值),而森林最终集成所有决策树的规则和分类结果(判断值),实现随机森林算法的分类(回归)。

1.27ExtraTrees

extra-trees(极其随机的森林)和随机森林非常类似,这里的“及其随机”表现在决策树的结点划分上,它干脆直接使用随机的特征和随机的阈值划分,这样我们每一棵决策树形状、差异就会更大、更随机。

2无监督学习

无监督学习问题处理的是,只有输入变量X没有相应输出变量的训练数据。它利用没有专家标注训练数据,对数据的结构建模。

2.1聚类

将相似的样本划分为一个簇(cluster)。与分类问题不同,聚类问题预先并不知道类别,自然训练数据也没有类别的标签。

2.11K-means算法

聚类分析是一种基于中心的聚类算法(K均值聚类),通过迭代,将样本分到K个类中,使得每个样本与其所属类的中心或均值的距离之和最小。与分层聚类等按照字段进行聚类的算法不同的是,快速聚类分析是按照样本进行聚类。

2.12分层聚类

分层聚类法作为聚类的一种,是对给定数据对象的集合进行层次分解,根据分层分解采用的分解策略。层次聚类算法按数据分层建立簇,形成一棵以簇为节点的树。如果按自底向上进行层次分解,则称为凝聚的层次聚类,比如AGNES。而按自顶向下的进行层次分解,则称为分裂法层次聚类,比如DIANA。一般用的比较多的是凝聚层次聚类。

2.2降维

降维指减少数据的维度同时保证不丢失有意义的信息。利用特征提取方法和特征选择方法,可以达到降维的效果。特征选择是指选择原始变量的子集。特征提取是将数据从高纬度转换到低纬度。广为熟知的主成分分析算法就是特征提取的方法。

2.21PCA主成分分析

2.22SVD奇异值分解

奇异值分解(SVD)是在机器学习领域广泛运用的算法,他不光可以用在降维算法中的特征值分解,还可以用于推荐系统,以及自然语言处理等领域,是很多算法的基石。

2.23LDA线性判别

线性判别的原理是将样本投影到一条直线上,使得同类样本的投影点尽可能接近,不同样本的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的直线上,再根据投影点的位置来确定新样本的类别。

本文来自SPSSPRO,对机器学习知识点全面总结,推荐大家收藏起来慢慢阅读,全文分为有监督和无监督各方面细节算法的阐述!

THE END
1.图解十大经典机器学习算法入门图解十大经典机器学习算法入门 弱人工智能近几年取得了重大突破,悄然间,已经成为每个人生活中必不可少的一部分。以我们的智能手机为例,看看到底温藏着多少人工智能的神奇魔术。 下图是一部典型的智能手机上安装的一些常见应用程序,可能很多人都猜不到,人工智能技术已经是手机上很多应用程序的核心驱动力。https://blog.csdn.net/jrunw/article/details/79205322
2.机器学习入门介绍(非常易懂)TheChosenOne8、对于机器学习算法的学习与使用原则: 不仅仅是调库,而是要深入到算法的内部,更好的理解算法的好坏,在理解的接触上争取创造新的算法。 //2019.07.31下午 机器学习基础入门 1、机器学习的典型数据集iris数据集(根据花的四种特征来区分三种不同的花) https://www.cnblogs.com/Yanjy-OnlyOne/p/11278951.html
3.TensorFlow机器学习常用算法解析和入门上图为基于ICA的人脸识别模型。实际上这些机器学习算法并不是全都像想象中一样复杂,有些还和高中数学紧密相关。 后面讲给大家一一详细单独讲解这些常用算法。 强化学习 13)Q-Learning算法 Q-learning要解决的是这样的问题:一个能感知环境的自治agent,怎样通过学习选择能达到其目标的最优动作。 https://www.w3cschool.cn/tensorflow/tensorflow-s8uq24ti.html
4.清华大学出版社图书详情以Python为基础,使用sklearn平台,封装丰富的机器学习算法;代码详解便于更快地掌握机器学习的思想,加速入门过程;突出实用性,针对每个机器学习算法都有相关案例。作者:周元哲 丛书名:计算机系列教材 定价:49.90元 印次:1-4 ISBN:9787302599982 出版日期:2022.02.01 印刷日期:2023.06.29http://www.tup.tsinghua.edu.cn/bookscenter/book_09067201.html
5.简单快速入门Python机器学习知识高清正版视频在线观看简介:该阶段是机器学习的入门课程,主要介绍一些经典的传统机器学习算法,如分类算法:KNN算法,朴素贝叶斯算法,逻辑回归,决策树算法以及随机森林;回归算法:线性回归,岭回归;聚类算法:KMeans算法,结合Python语言实现的经典机器学习库Sikit-Learn库,实现一些小型预测案例。 意见https://m.iqiyi.com/a_19rrhvzf11.html
6.面向初学者和专家的十大机器学习书籍机器学习算法用于各种应用程序,例如电子邮件过滤和计算机视觉,在这些应用程序中,很难或不可行地开发常规算法来执行所需的任务。想学习机器学习吗?从这10本书开始。 想学习机器学习吗?从这10本书开始。 > Top 10 Books on Machine Learning For Absolute Beginners, Beginners and Experts https://www.51cto.com/article/639967.html
7.入门到起飞保姆级教程,人工智能基础入门必看!机器学习算法咕泡AI创建的收藏夹咕泡AI内容:【人工智能入门必备】机器学习十大算法,入门到起飞保姆级教程,人工智能基础入门必看!【机器学习算法|机器学习入门到精通|深度学习|Python|机器学习】,如果您对当前收藏夹内容感兴趣点击“收藏”可转入个人收藏夹方便浏览https://www.bilibili.com/list/1665832462
8.师书说阅读练习154《机器学习算法的数学解析与Python实现》算是不错的机器学习算法入门读物。 >> 本书的目标读者是想要学习机器学习的学生、程序员、研究人员或者爱好者,以及想要知道机器学习是什么、为什么和怎么用的所有读者。 ◆ 1.1 什么是机器学习 >> 机器学习、人工智能和深度学习的目标都是让算法模拟“智能”,但层次范围不同。 https://www.jianshu.com/p/c6ca0402cb3d
9.机器学习入门86验证数据集与交叉验证腾讯云开发者社区机器学习入门 8-6 验证数据集与交叉验证 本系列是《玩转机器学习教程》一个整理的视频笔记。本小节探讨将数据集划分训练集和测试集的局限性,进而引出验证集,为了解决验证集随机性的问题,引入了交叉验证和留一法,并进一步探讨网格搜索背后的意义,最后通过编程实现调参选择模型的整个过程。https://cloud.tencent.com/developer/article/1561721
10.95后哈佛小哥撰写《从零开始的机器学习》,入门必备,书籍资源已开放这本书涵盖了机器学习领域最常见的方法,就像是一位机器学习工程师的工具箱,适用于入门级学习者。撰写目的是为读者提供独立构建一些基本的机器学习算法的实践指导,如果用工具箱类比的话,就是教会读者具体使用一把螺丝刀、一盒卷尺。书中的每一章都对应一种机器学习方法。 https://m.thepaper.cn/baijiahao_9418519
11.机器学习从入门到精通配套教材课件完整版电子教案.pptx机器学习从入门到精通; 第1章 机器学习概述;1.1 人工智能;1.2 机器学习;1.2.1 机器学习的发展;1.2.2 机器学习分类;1.2.3 机器学习经典算法;1.2.4 机器学习的入门;1.3 机器学习的工作流程;1.3.1 准备数据集;1.3.1 准备数据集;1.3.1 准备数据集;1.3.2 进行模型训练;1.3.2 进行模型训练;1.3.2 进行模型https://max.book118.com/html/2022/0713/5110042200004304.shtm
12.如何选择机器学习算法Python 入门(第 1 天) 训练和部署图像分类 构建训练管道 (Python) 与Azure 机器学习交互 处理数据 自动化机器学习 训练模型 使用基础模型 负责任地开发和监视 使用管道协调工作流 概述 设计器(拖放 ML) 什么是设计器 算法备忘单 如何选择算法 转换数据 https://docs.microsoft.com/zh-cn/azure/machine-learning/studio/algorithm-choice
13.写给程序员的机器学习入门(一)从基础说起前段时间因为店铺不能开门,我花了一些空余时间看了很多机器学习相关的资料,我发现目前的机器学习入门大多要不门槛比较高,要不过于着重使用而忽视基础原理,所以我决定开一个新的系列针对程序员讲讲机器学习。这个系列会从机器学习的基础原理开始一直讲到如何应用,看懂这个系列需要一定的编程知识(主要会使用 python 语言),https://www.flyai.com/article/866
14.一文看懂机器学习「3种学习方法+7个实操步骤+15种常见算法」机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。 所以,机器学习不是某种具体的算法,而是很多算法的统称。 机器学习包含了很多种不同的算法,深度学习就是其中之一,其他方法包括决策树,聚类,贝叶斯等。 https://easyai.tech/ai-definition/machine-learning/
15.Python机器学习基础教程中文pdf高清版[28MB]电子书下载《Python机器学习基础教程》是机器学习入门书,以Python语言介绍。主要内容包括:机器学习的基本概念及其应用;实践中最常用的机器学习算法以及这些算法的优缺点;在机器学习中待处理数据的呈现方式的重要性,以及应重点关注数据的哪些方面;模型评估和调参的高级方法,重点讲解交叉验证和网格搜索;管道的概念;如何将前面各章的方法https://www.jb51.net/books/658226.html