SVM是一种分类器,它通过在特征空间中找到最优的线性分割面(也称为超平面)来区分不同的类别。SVM的核心思想是最大化不同类别之间的边际,这个边际可以理解为最接近决策边界的数据点(支持向量)到决策边界的距离。支持向量机在处理小型和中等数据集上非常有效,特别是在类别边界非常清晰的情况下表现出色。
支持向量机在处理线性可分问题时效率很高,但也可通过核技术处理线性不可分的问题。核技术通过将数据映射到更高维度的空间,使得原本线性不可分的数据在新的空间中能被线性分割。常用的核有线性核、多项式核和径向基核(RBF)等。
决策树
决策树是基于树结构来进行决策的模型,在分类和回归问题中都有应用。决策树通过递归地选择最优特征并对数据进行分区,形成树状的结构。决策树在节点分裂时会考虑各种可能的特征,选择一个特征进行分裂,直到满足停止条件。它们很容易理解,并且可以清晰地显示哪些字段比其他字段更重要。
然而,决策树模型易于过度拟合,尤其是当树深度很大时。为了解决这个问题,随机森林等集成学习方法被用来提高泛化能力。
随机森林
随机森林是一种集成学习方法,它结合多个决策树来提升性能和预测能力。每棵树在训练时都会使用一个随机的特征子集,这样做可以减少模型的方差,并且防止过拟合。随机森林是一种非常流行且强大的分类器,它在多种机器学习任务中都表现出了良好的性能。
随机森林算法的一个关键优势是对异常值和非线性数据的鲁棒性,同时由于包含多棵树,它也能给出变量重要性的直观度量。
卷积神经网络(CNN)和循环神经网络(RNN)
CNN通过卷积层来局部连接输入的图像区域,并通过池化层来降低特征空间的维数,从而达到对输入图像特征的高效提取。相反,RNN是通过其循环结构来处理序列数据,它可以使用自身的输出作为后续步骤的输入,这使得它可以保持对序列的记忆。
二、无监督学习算法
K-均值聚类
K-均值聚类是一种非常流行的无监督学习算法,用于将数据划分为K个不同的簇,这些簇由它们的均值(中心点)来表示。在K-均值算法中,首先会随机选择K个点作为初始的簇中心然后使数据点根据距离这些中心的远近被分配到最近的簇,之后移动簇中心到其所包含点的平均位置,并重复这个过程直到中心不再发生变化。
K-均值算法易于实现且计算高效,但它有几个局限性,包括必须预先指定K值以及对异常值和簇形状的敏感性。
主成分分析(PCA)
自编码器
自编码器是一种无监督的深度学习模型,用于学习数据的有效表示(即编码)。自编码器的架构包含一个编码器和一个解码器。编码器的作用是将输入转换为一个内部表示,而解码器将该表示转换回原始输入数据。这种网络结构特别适合于特征学习和数据压缩。
深度信念网络(DBN)
深度信念网络是一种基于概率生成模型的深度学习结构,它由多个受限玻尔兹曼机(RBMs)堆叠而成。DBN可以被用于降维、特征学习及分类等多种任务。