把常用的机器学习算法:\(k\)-近邻算法、朴素贝叶斯、逻辑回归、\(K\)-均值聚类其思想有及python代码实现总结一下。做到既要知其然又要知其所以然。参考《机器学习实战》。
\(k\)-近邻算法是分类数据最简单有效的方法。简单地来说,它采用测量不同特征值之间的距离方法进行分类。提取样本集中特征最相邻数据的分类标签,一般来说,我们只选择样本数据集中前\(k\)个最相似的数据。
代码的关键是计算数据集中每个点与点之间的距离并按递增排序。牢记distances.argsort()返回的是数组distances中数值从小到大排序之后的索引位置,不得不说,python的封装功能很强大。
优点:精度高、对异常值不敏感、无数据输入假定
缺点:计算复杂度高、空间复杂度高,无法给出任何数据的基础结构信息
贝叶斯决策理论的核心思想:选择具有最高概率的决策。
核心是贝叶斯准则,它告诉我们如何交换条件概率中的条件与结果,即如果已知\(P(x|c)\),要求\(P(c|x)\),那么可以使用下面的计算方法:\begin{align}p(c|x)=\frac{p(x|c)p(c)}{p(x)}\notag\end{align}
朴素贝叶斯假设特征之间相互独立,这个假设正是朴素贝叶斯中“朴素”一词的含义。朴素贝叶斯分类器中的另一个假设是每个特征同等重要。这两个假设虽然存在一些小瑕疵,但朴素贝叶斯的实际效果却很好。
贝叶斯决策理论要求计算两个概率\(p(c_1|x)\)与\(p(c_2|x)\)(对于二分类)。具体意义是:给定某个由\(x\)表示的数据点,那么该数据点来自类别\(c_1\)的概率是多少?来自\(c_2\)的概率又是多少?注意这些概率和\(p(x|c_1)\)并不一样,可以使用贝叶斯准则交换概率中条件与结果。使用这些定义,可以定义贝叶斯分类准则:
对于一个实际的问题,我们需要做以下步骤:
优点:在数据较少的情况下仍然有效,可以处理多类别问题
缺点:对于输入数据的准备方式较为敏感
Sigmoid函数具体的计算公式如下:\begin{align}\sigma(z)=\frac{1}{1+\mathrm{e}^{-z}}\notag\end{align}显然\(\sigma(0)=0.5\).为了实现Logsitic回归分类器,我们可以在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个总和代入Sigmoid函数中,进而得到一个范围在\(0\sim1\)之间的数值。任何大于\(0.5\)的数据被分入\(1\)类,小于\(0.5\)即被归入\(0\)类。所以Logistic回归也可以被看成是一种概率估计。现在主要的问题是:如何确定最佳回归系数?我们定义好代价函数之后,用梯度上升算法即可求解。
该算法的主要部分就是梯度上升算法的编写,下面给出:
defgradAscent(dataMatIn,classLabels):#梯度上升算法 m,n=np.shape(dataMatIn) alpha=0.001 maxCycles=500 weights=np.ones(n)#1*n的数组 forkinrange(maxCycles): h=sigmoid(np.dot(dataMatIn,weights))#1*m的数组,sigmoid是Sigmoid函数,自己编写 error=classLabels-h weights=weights+alpha*np.dot(error,dataMatIn)//在这里是按差值方向调整,也可以求解出梯度 returnweights defstocGradAscent0(dataMatIn,classLabels,numIter=40):#随机梯度上升算法 m,n=np.shape(dataMatIn) #maxCycles=500 weights=np.ones(n)#初始化权重,1*n的数组 forjinrange(numIter): dataIndex=range(m) foriinrange(m): alpha=4/(1.+j+i)+0.01#迭代步长设定 randIndex=int(np.random.uniform(0,len(dataIndex)))#与梯度上升唯一的区别:随机选取更新 h=sigmoid(np.sum(dataMatIn[randIndex]*weights))#一个数 error=classLabels[randIndex]-h#一个向量 weights=weights+alpha*error*dataMatIn[randIndex] del(dataIndex[randIndex]) returnweights
优点:计算代价不高,易于理解和实现
缺点:容易欠拟合,分类精度可能不高
聚类是一种无监督的学习,它将相似的对象归到同一个簇中。\(K\)均值聚类之所以称之为\(K\)均值是因为它可以发现\(k\)个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。
\(K\)均值聚是发现给定数据集中\(k\)个簇的算法。簇个数\(k\)是用户给定的,每一个簇通过其质心,即簇中所有点的中心来描述。其算法流程:
创建k个点作为起始质心(经常随机选择)当任意一个点的簇分配结果发生改变时(说明还没收敛)对数据集中的每个数据点对每个质心计算质心与数据点之间的距离数据点分配到距其最近的簇对每一个簇,计算簇中所有点的均值并将均值作为质心
假设我们对一堆数据点进行聚类操作,数据点来自机器学习实战。代码如下:
由于初始质心的随机选择,每次运行结果会稍微有所不同。
如果\(k\)选择的过于小,该算法收敛到了局部最小值,而非全局最小值。一种用于度量聚类效果的指标是SSE(SumofSquaredError,误差平方和),对应程度中clusterAssment矩阵的第一列之和。SSE值越小表示数据点越接近于它们的质心,聚类效果也越好。一种肯定可以降低SSE值的方法是增加簇的个数,但这违背了聚类的目标。聚类的目标是在保持簇数目不变的情况下提高簇的质量。
那么如何提高呢?一种方法是将具有最大SSE值的簇划分成两个簇。具体实现时可以将最大簇包含的点过滤出来并在这些点上运行\(K\)均值算法,为了保持簇总数不变,可以将某两个簇进行合并,这两个簇的选择一般有两种可以量化的方法:合并最近的质心,或者合并两个使得SSE增幅最小的质心。
为克服\(K\)均值算法收敛于局部最小值的问题,有人提出了另一个称为二分\(K\)均值的算法。该算法首先将所有点作为一个簇,然后将该簇一分为二。之后选择一个簇继续进行划分,选择哪一个簇进行划分取决于对其划分是否可以最大程度降低SSE的值。上述基于SSE的划分过程为断重复,直到得到用户指定的簇数为止。另一种做法是选择SSE最大的簇进行划分,直到簇数目达到用户指定的数目为止。