机器学习涉及内容模型适用范围优缺点总结远征i|网上学习的优缺点总结_在线学习

分类——————数据集生成器、KNN拟合数据

多元分类————生成数据集、KNN拟合

回归分析————用于回归分析的数据集生成器、KNN拟合、调整近邻数

KNN实战—酒的分类————数据集有哪些键、生成训练集和测试集、KNN拟合、新样本的分类进行预测

不适用：

线性模型的图形表示————导入线性模型、拟合数据点、拟合新加的数据点、训练数据集的属性“xx_”

线性模型特点—————用于回归分析的好几种线性模型之间的区别

最基本的线性模型：线性回归————

使用L2正则化的线性模型：岭回归————线性回归和岭回归之间的重要结论

使用L1正则化的线性模型：套索回归————

套索回归和岭回归的区别————

适用：

优点：

缺点：

基本概念————原理、贝叶斯定理、对天气的简单预测

贝努利朴素贝叶斯————适合符合贝努利分布【二项分布】的数据集

高斯朴素贝叶斯————适用样本的特征符合高斯分布【正态分布】

多项式朴素贝叶斯————用于拟合多项式分布的数据集、数据预处理工具MinMaxScaler

实战：判断肿瘤良性还是恶性————导入、拆分、拟合、随机预测、高斯朴素贝叶斯的学习曲线

涉及内容：原理————if/else推导

决策树构建————用决策树分类器分类【设定最大深度】、分类器表现、加大深度

简介————是一种集合学习算法，可以用于分类，也可以用于回归、可解决过拟合问题

随机森林构建————bootstrap、max_features、n_estimators、图形看看随机分类的表现

实战：判断月薪是否>5万————载入数据集、用get_dummies处理数据、用决策树建模并预测

额外功能：在数据集中对数据特征的重要性进行判断————可以通过这两个算法对高维数据进行分析，在诸多特征中保留最重要的，也便于对数据降维处理

涉及内容：SVM原理————核函数、数据投射至高维空间、多项式内核、RBF内核

支持向量机的SVM核函数————创建一个线性内核的支持向量机模型、SVM内核换成RBF

SVM的核函数和参数选择————不同核函数的SVM对比、linearSVM算法

RBF内核SVC的gamma参数调节————结果分析

注意事项————3个非常重要的参数

SVM在回归分析中的应用：波士顿房价数据集——————了解数据集、SVR算法建立房价预测模型、StandardScaler数据预处理

原理————MLP算法

神经网络中的非线性矫正————非线性矫正rele、进行双曲正切处理tanh

神经网络的参数设置————各个参数的含义、图像展示MLP分类的情况、减少隐藏层的节点、给MLP分类器增加隐藏层数量、设计激活函数为tanh、修改alpha参数

实战——手写识别————MNIST数据集、识别

优点

缺点

数据预处理————StandardScaler预处理数据、MinMaxScaler数据预处理、RobustScaler数据预处理、Normalizer数据预处理

通过数据预处理提高模型准确率————训练一个MLP神经网络、使用MinMaxScaler进行数据预处理

数据降维————PCA主成分分析原理

对数据降维以便于进行可视化————

原始特征与PCA主成分之间的关系————

特征提取————PCA主成分分析法用于特征提取、使用一些方法来提升模型的表现、PCA中的数据白化功能、非负矩阵分解用于特征提取

聚类算法————K均值算法、凝聚聚类算法、DBSCAN算法、eps参数、min_samples参数

适用数据降维的情况：

对于机器学习来说，合理有效地对数据进行表达是至关重要的

对于没有分类标签的数据来说，无监督学习的聚类算法可以帮助我们更好的理解数据集，并且为进一步训练模型打好基础

数据表达————类型特征、连续特征、使用哑变量转换类型特征、get_dummies的使用、把数值特征也进行get_dummies转换、装箱处理【离散化处理】、用新的方法来表达已经装箱的数据——OneHotEncoder，独热编码、

数据“升维”————向数据集添加交互式特征、Numpy中的hstack函数、对特征进行交互式操作对模型产生的影响、向数据集添加多项式特征、PolynomialFeatures、处理后机器学习的模型的变化

自动特征选择————使用单一变量法进行特征选择、使用SelectPercentile进行特征选择、基于模型的特征选择、迭代式特征选择、递归特征剔出法RFE

对样本特征进行装箱的好处：

使用交叉验证对模型进行评估————sklearn中的交叉验证法、K折叠交叉验证法、随机拆分和“挨个儿试”

使用网格搜索寻找模型的最优参数————简单网格搜索、局限性、与交叉验证结合的网格搜索、GridSearchCV进行参数调优的过程

对分类模型的可信度进行评估————分类模型中的预测准确率、分类模型中的决定系数、.score给分类、回归模型评分的方法、GridSearchCV改变评分的方式

在sklearn中，cross_val_score对于分类模型默认使用的是K折叠交叉验证，而对于分类模型则默认使用分层K交叉验证法

涉及内容：基本概念和使用————在数据预处理中遇到的问题及使用管道模型解决

使用管道模型进行网格搜索————

管道模型不仅可以把数据预处理和模型训练集结合一起，也可以将很多不同的算法打包

整理数据集————删除无效数值、去掉冗余信息、考虑是否把字符串类型的特征通过get_dummies转化成整型数值

.建立包含数据预处理和MLP模型的管道模型————使用make_pipeline便捷的建立管道模型

向管道模型添加特征选择步骤————提取管道模型每个步骤的属性

THE END

机器学习涉及内容模型适用范围优缺点总结远征i

线上教学优缺点总结(11篇)

影响划分录取控制线的因素有哪些划分条件是什么

线上教学的优缺点范文

线上教学学习情况总结(精选5篇)

个人总结主要优缺点（精选9篇）

机器学习涉及内容模型适用范围优缺点总结远征i

2021年年终工作总结精选5篇

年终总结个人评价精选20篇

一文总结四种监理组织形式各自的优缺点监理工程师

自我评价优势和不足简短(3篇)