线性回归是用于预测建模的最简单且使用最广泛的机器学习算法之一。
它是一种监督学习算法,用于根据一个或多个自变量预测因变量的值。
线性回归的核心是根据观察到的数据拟合线性模型。
线性模型由以下方程表示:
线性回归算法涉及查找到通过数据点的最佳拟合线。这通常是通过最小化观测值和预测值之间的平方差来完成的。
它们因其简单性、可解释性以及处理数值和分类数据的能力而广受欢迎。
决策树由代表决策点的节点、代表可能结果的分支以及代表最终决策或预测的叶子组成。
决策树中的每个节点对应一个特征,分支代表该特征的可能值。
构建决策树的算法涉及根据不同特征的值递归地将数据集分割成子集。目标是创建同质子集,其中目标变量(我们想要预测的变量)在每个子集中都是相似的。
分裂过程持续进行,直到满足停止标准,例如达到最大深度、最小样本数,或者无法进行进一步改进。
它计算给定每个输入值的每个类别的概率和每个类别的条件概率。然后使用这些概率根据最高概率对新值进行分类。
它根据输入数据点与其在特征空间中最近邻居的相似性进行预测。
在KNN中,新数据点的预测由其k个最近邻的多数类(用于分类)或平均值(用于回归)确定。KNN中的“k”表示要考虑的邻居数量,这是用户选择的超参数。
KNN算法包括以下步骤
它们在高维空间中特别有效,广泛应用于图像分类、文本分类和生物信息学等各个领域。
支持向量机的工作原理是找到最能将数据分为不同类别的超平面。
选择超平面以最大化边距,即超平面与每个类的最近数据点(支持向量)之间的距离。
SVM还可以通过使用核函数将输入空间转换为可以线性分离的高维空间来处理非线性数据。
训练SVM的算法包括以下步骤:
它们广泛用于分类和回归任务,并以其鲁棒性和多功能性而闻名。
随机森林是根据数据集的随机子集并使用特征的随机子集进行训练的决策树的集合。
森林中的每棵决策树独立地进行预测,最终的预测是通过聚合所有树的预测来确定的。
构建随机森林的算法包括以下步骤
该算法将数据点分配给一个簇,使得数据点与簇质心之间的平方距离之和最小。
使用PCA可以找到使数据方差最大化的主要成分或轴。第一个主成分捕获最大方差,第二个主成分(与第一个主成分正交)捕获第二大方差,依此类推。