机器学习算法中的概率方法

本文介绍机器学习算法中的概率方法。概率方法会对数据的分布进行假设,对概率密度函数进行估计,并使用这个概率密度函数进行决策。本文介绍四种最常用的概率方法:线性回归(用于回归任务)、对数几率回归(用于二分类任务)、Softmax回归(用于多分类任务)和朴素贝叶斯分类器(用于多分类任务)。*前三种方法属于判别式模型,而朴素贝叶斯分类器属于生成式模型。(*严格来说,前三者兼有多种解释,既可以看做是概率方法,又可以看做是非概率方法。)

1准备知识

本节给出概率方法的基本流程,后续要介绍的不同的概率方法都遵循这一基本流程。

1.1概率方法的建模流程

(1).对p(y|x;θ)进行概率假设。我们假定p(y|x;θ)具有某种确定的概率分布形式,其形式被参数向量θ唯一地确定。

(2).对参数θ进行最大后验估计。基于训练样例对概率分布的参数θ进行最大后验估计(maximumaposteriori,MAP),得到需要优化的损失函数。

最大后验估计是指

其在最大化时考虑如下两项:

参数的先验分布p(θ)。最大后验估计认为参数θ未知并且是一个随机变量,其本身服从一个先验分布p(θ)。这个先验分布蕴含了我们关于参数的领域知识。

基于观测数据得到的似然(likelihood)p(D|θ)。最大化似然是在θ的所有可能的取值中,找到一个能使样本属于其真实标记的概率最大的值。

最大后验估计是在考虑先验分布p(θ)时最大化基于观测数据得到的似然(likelihood)p(D|θ)。

参数估计的两个不同学派的基本观点是什么这实际上是参数估计(parameterestimation)过程,统计学中的频率主义学派(frequentist)和贝叶斯学派(Bayesian)提供了不同的解决方案[3,9]。频率主义学派认为参数虽然未知,但却是客观存在的固定值,因此通常使用极大似然估计来确定参数值。贝叶斯学派则认为参数是未观察到的随机变量,其本身也可有分布,因此,可假定参数服从一个先验分布,然后基于观察到的数据来计算参数的后验分布。

定理1.最大后验估计的结果是优化如下形式的损失函数

Proof.利用样例的独立同分布假设,

经验风险和结构风险的含义L(θ)的第一项称为经验风险(empiricalrisk),用于描述模型与训练数据的契合程度。第二项称为结构风险(structuralrisk)或正则化项(regularizationterm),源于模型的先验概率,表述了我们希望获得何种性质的模型(例如希望获得复杂度较小的模型)。λ称为正则化常数,对两者进行折中。

结构风险的作用(1).为引入领域知识和用户意图提供了途径。(2).有助于削减假设空间,从而降低了最小化训练误差的过拟合风险。这也可理解为一种“罚函数法”,即对不希望得到的结果施以惩罚,从而使得优化过程趋向于希望目标。p范数是常用的正则化项。

其中先验分布的参数转化为正则化常数λ。

为什么最常假设参数的先验分布是高斯分布(或最常使用正则化)这是因为高斯分布N(;Σ)是所有均值和熵存在且协方差矩阵是Σ的分布中熵最大的分布。最大熵分布是在特定约束下具有最大不确定性的分布。在没有更多信息的情况下,那些不确定的部分都是“等可能的”。在设计先验分布p(θ)时,除了我们对参数的认知(例如均值和值域)外,我们不想引入任何其余的偏见(bias)。因此最大熵先验(对应正则化)常被使用。除高斯先验外,还可以使用不提供信息的先验(uninformativeprior),其在一定范围内均匀分布,对应的损失函数中没有结构风险这一项。

(3).对损失函数L(θ)进行梯度下降优化。

梯度下降的细节留在下一节介绍。

概率方法的优缺点各是什么优点:这种参数化的概率方法使参数估计变得相对简单。缺点:参数估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中,欲做出能较好地接近潜在真实分布的假设,往往需在一定程度利用关于应用任务本身的经验知识,否则仅凭“猜测”来假设概率分布形式,很可能产生误导性的结果。我们不一定非要概率式地解释这个世界,在不考虑概率的情况下,直接找到分类边界,也被称为判别函数(discriminantfunction),有时甚至能比判别式模型产生更好的结果。

1.2梯度下降

我们的目标是求解下列无约束的优化问题。

其中L(θ)是连续可微函数。梯度下降是一种一阶(frstorder)优化方法,是求解无约束优化问题最简单、最经典的求解方法之一。

梯度下降的基本思路梯度下降贪心地迭代式地最小化L(θ)。梯度下降希望找到一个方向(单位向量)v使得L在这个方向下降最快,并在这个方向前进α的距离

定理3.梯度下降的更新规则是公式5。重复这个过程,可收敛到局部极小点。

Proof.我们需要找到下降最快的方向v和前进的距离α。

(1).下降最快的方向v。利用泰勒展开

的一阶近似,

即下降最快的方向是损失函数的负梯度方向。

(2).前进的距离α。我们希望在开始的时候前进距离大一些以使得收敛比较快,而在接近最小值时前进距离小一些以不错过最小值点。因此,我们设前进距离为损失函数梯度的一个倍数

其中η被称为学习率(learningrate)。

向公式7代入最优的和后即得。

则称f为区间[a,b]上的凸函数(convexfunction)。当<成立时,称为严格凸函数(strictconvexfunction)。U形曲线的函数如通常是凸函数。

2线性回归

2.1建模流程

线性回归(linearregression)回归问题。其建模方法包括如下三步(参见第1.1节)。

(1).对p(y|x;θ)进行概率假设。

我们假设

被称为误差项,捕获了(a)。特征向量x中没有包含的因素.

(b).随机噪声。对不同的样本是独立同分布地从中进行采样得到的。

线性回归的假设函数是

为了书写方便,我们记

那么公式12等价于

在本文其余部分我们将沿用这一简化记号。因此,

(2).对参数θ进行最大后验估计。

定理7.假设参数θ服从高斯先验,对参数θ进行最大后验估计等价于最小化如下损失函数

其中

被称为平方损失(squareloss)。在线性回归中,平方损失就是试图找到一个超平面,使所有样本到该超平面的欧式距离(Euclideandistance)之和最小。

Proof

其中,最后一行只是为了数学计算上方便,下文推导对数几率回归和Softmax回归时的最后一步亦然。

可以容易地得到损失函数对参数的偏导数

2.2线性回归的闭式解

线性回归对应的平方损失的函数形式比较简单,可以通过求直接得到最优解。

定理8.线性回归的闭式解为

Proof.L(θ)可等价地写作

那么

求解

即得。

mλI,即使不可逆,+mλI仍是可逆的。

2.3其他正则化回归模型

事实上,上文介绍的线性回归模型是岭回归(ridgeregression)。根据正则化项的不同,有三种常用的线性回归模型,见表1。

基于0、1和2范数正则化的效果2范数倾向于w的分量取值尽量均衡,即非零分量个数尽量稠密。而0“范数”和1范数则倾向于w的分量尽量稀疏,即非零分量个数尽量少,优化结果得到了仅采用一部分属性的模型。也就是说,基于0“范数”和1范数正则化的学习方法是一种嵌入式(embedding)特征选择方法,其特征选择过程和学习器训练过程融为一体,两者在同一个优化过程中完成。事实上,对w施加稀疏约束最自然的是使用0“范数”。但0“范数”不连续,难以优化求解。因此常采用1范数来近似。

为什么1正则化比2正则化更易于获得稀疏解?假设,则。我们绘制出平方损失项、1范数和2范数的等值线(取值相同的点的连线),如图1所示。LASSO的解要在平方损失项和正则化项之间折中,即出现在图中平方误差项等值线和正则化项等值线的相交处。从图中可以看出,采用1正则化时交点常出现在坐标轴上(w2=0),而采用2正则化时交点常出现在某个象限中(w1,w2均不为0)。

Figure1:1正则化(红色)比2正则化(黑色)更易于获得稀疏解。本图源于[17]。

考虑一般的带有1正则化的优化目标

若(θ)满足L-Lipschitz条件,即

优化通常使用近端梯度下降(proximalgradientdescent,PGD)[1]。PGD也是一种贪心地迭代式地最小化策略,能快速地求解基于1范数最小化的方法。

定理9.假设当前参数是,PGD的更新准则是

Proof.在附近将(θ)进行二阶泰勒展开近似

由于θ各维互不影响(不存在交叉项),因此可以独立求解各维。

在LASSO的基础上进一步发展出考虑特征分组结构的GroupLASSO[14]、考虑特征序结构的FusedLASSO[11]等变体。由于凸性不严格,LASSO类方法可能产生多个解,该问题通过弹性网(elasticnet)得以解决[16].

2.4存在异常点数据的线性回归

一旦数据中存在异常点(outlier),由于平方损失计算的是样本点到超平面距离的平方,远离超平面的点会对回归结果产生更大的影响,如图2所示。平方损失对应于假设噪声服从高斯分布,一种应对异常点的方法是取代高斯分布为其他更加重尾(heavytail)的分布,使其对异常点的容忍能力更强,例如使用拉普拉斯分布,如图3所示。

Figure2:存在异常点(图下方的三个点)时普通线性回归(红色)和稳健线性回归(蓝色)。本图源于[7]。

定义2(拉普拉斯分布(Laplacedistribution)Lap(,b)),又称为双边指数分布(doublesidedexponentialdistribution),具有如下的概率密度函数

该分布均值为,方差为

定理10.假设参数服从高斯先验,

对参数θ进行最大后验估计等价于最小化如下损失函数

由于绝对值函数不光滑,不便基于梯度下降对公式33进行优化。通过分离变量技巧,可将其转化为二次规划(quadraticprogramming)问题,随后调用现有的软件包进行求解。我们在下一章形式化SVR时还会再使用这个技巧。

定理11.最小化公式33等价于如下二次规划问题,其包含d+1+2m个变量,3m个约束:

此外,为了结合高斯分布(对应平凡损失)容易优化和拉普拉斯分布(对应1损失)可以应对异常值的优点,Huber损失[5]在误差接近0时为平方损失,在误差比较大时接近1损失,如图4所示。

Huber损失处处可微,使用基于梯度的方法对Huber损失进行优化会比使用拉普拉斯分布更快。

Figure4:2损失(红色)、1损失(蓝色)和Huber损失(绿色)。本图源于[7]。

2.5广义线性模型

线性回归利用属性的线性组合进行预测。除了直接利用逼近y外,还可以使模型的预测值逼近y的衍生物。考虑单调可微函数g,令

这样得到的模型称为广义线性模型(generalizedlinearmodel),其中函数g被称为联系函数(linkfunction)。本文介绍的线性回归、对数几率回归和Softmax回归都属于广义线性模型,如表2所示。

广义线性模型的优点(1).形式简单、易于建模。(2).很好的可解释性。直观表达了各属性在预测中的重要性。

如何利用广义线性模型解决非线性问题(1).引入层级结构。例如深度学习是对样本x进行逐层加工,将初始的低层表示转化为高层特征表示后使用线性分类器。(2).高维映射。例如核方法将x映射到一个高维空间(x)后使用线性分类器。

3对数几率回归

3.1建模流程

对数几率回归(logisticregression)应对二分类问题。其建模方法包括如下三步(参见第1.1节)。

(1).对p(y|x,θ)进行概率假设。

对二分类任务,标记,而产生的是实数值,于是,我们需要找到一个单调可微函数g将转化为。最理想的是用单位阶跃函数

当大于0时输出1,小于0时输出0。但是,单位阶跃函数不连续不可微,无法利用梯度下降方法进行优化。因此,我们希望找到一个能在一定程度上近似单位阶跃函数并单调可微的替代函数(surrogatefunction)。

Figure5:单位阶跃函数(红色)与对数几率函数(黑色)。本图源于[17]。

如图5所示,对数几率函数(sigmoidfunction)正是这样一个常用的替代函数

我们将其视为后验概率估计,即

两者可以合并写作

也就是说,y|x,θ服从伯努利分布Ber(sigm)。

定理12.假设参数θ服从高斯先验,对参数θ进行最大后验估计等价于最小化如下损失函数

称为对数几率损失(logisticloss)。

注意到

因此

3.2与广义线性模型的关系

对数几率回归的假设函数等价于,其中被称为几率(odds),反映x作为正例的相对可能性。被称为对数几率(logodds,logit),公式50实际上在用线性回归模型的预测结果逼近真实标记的对数几率,这是对数几率回归名称的由来。

对数几率回归的优点(1).直接对分类的可能性进行建模(假设p(y|x,θ)服从伯努利分布),无需事先假设样本x的分布,这样避免了假设分布不准确所带来的问题。(2).不仅能预测出类别,还可以得到近似概率预测,对许多需要概率辅助决策的任务很有用。(3).对数几率的目标函数是凸函数,有很好的数学性质。

引理13.对数几率损失函数是凸函数。

Proof.在的基础上,进一步可求得是一个半正定矩阵。

3.3的对数几率回归

为了概率假设方便,我们令二分类问题的标记。有时,我们需要处理形式的分类问题。对数几率损失函数需要进行相应的改动。

定理14.假设参数θ服从高斯先验,对参数θ进行最大后验估计等价于最小化如下损失函数

4Softmax回归

4.1建模流程

Softmax回归应对多分类问题,它是对数几率回归向多分类问题的推广。其建模方法包括如下三步(参见第1.1节)。

对数几率回归假设p(y|x,θ)服从伯努利分布,Softmax回归假设p(y|x,θ)服从如下分布

假设函数可以写成矩阵的形式

定理15.假设参数θ服从高斯先验,对参数θ进行最大后验估计等价于最小化如下损失函数

称为交叉熵损失(cross-entropyloss)。

损失函数对应于类别k的参数的导数是

写成矩阵的形式是

其中的第k个元素是1,其余元素均为0。对比公式20、49和67,损失函数的梯度有相同的数学形式

区别在于假设函数的形式不同。事实上,所有的广义线性模型都有类似于公式68的更新准则。

4.2交叉熵

定义由训练集观察得到的分布,称为经验分布(empiricaldistribution)。经验分布对应于第i个样例,定义。另一方面,是由模型估计出的概率。

定理16.交叉熵损失旨在最小化经验分布和学得分布之间的交叉熵。这等价于最小化和之间的KL散度,迫使估计的分布近似目标分布。

5朴素贝叶斯分类器

朴素贝叶斯分类器(naiveBayesclassifer)也是一种概率方法,但它是一种生成式模型。在本节,我们首先回顾生成式模型,之后介绍朴素贝叶斯分类器的建模流程。

5.1生成式模型

判别式模型和生成式模型各是什么判别式模型(discriminantmodel)直接对p(y|x)进行建模,生成式模型(generativemodel)先对联合分布p(x,y)=p(x|y)p(y)进行建模,然后再得到

其中,p(y)是类先验(prior)概率,表达了样本空间中各类样本所占的比例。p(x|y)称为似然(likelihood)。p(x)是用于归一化的证据(evidence)。由于其和类标记无关,该项不影响p(y|x)的估计

如何对类先验概率和似然进行估计根据大数定律,当训练集包含充足的独立同分布样本时,p(y)可通过各类样本出现的频率来进行估计

而对似然p(x|y),由于其涉及x所有属性的联合概率,如果基于有限训练样本直接估计联合概率,(1).在计算上将会遭遇组合爆炸问题。(2).在数据上将会遭遇样本稀疏问题,很多样本取值在训练集中根本没有出现,而“未被观测到”与“出现概率为零”通常是不同的。直接按样本出现的频率来估计会有严重的困难,属性数越多,困难越严重。

判别式模型和生成式模型的优缺点优缺点对比如表3所示。

5.2建模流程

(1).对p(x|y,θ)进行概率假设。

生成式模型的主要困难在于,类条件概率p(x|y)是所有属性的联合概率,难以从有限的训练样本直接估计而得。为避开这个障碍,朴素贝叶斯分类器采用了属性条件独立性假设:对已知类别,假设所有属性相互独立。也就是说,假设每个属性独立地对分类结果发生影响

此外,对连续属性,进一步假设

因此,朴素贝叶斯分类器的假设函数是

(2).对参数θ进行最大后验估计。参数θ包括了第c类样本在第j个属性上的高斯分布的均值和方差。

定理17.假设参数θ服从不提供信息的先验,对参数θ进行最大后验估计的结果是

Proof.代入公式76

5.3离散属性的参数估计

朴素贝叶斯分类器可以很容易地处理离散属性。可估计为

然而,若某个属性值在训练集中没有与某个类同时出现过,则根据公式82估计得到0。代入公式75得到-1。因此,无论该样本的其他属性是什么,分类结果都不会是y=c,这显然不太合理。

为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行平滑(smoothing),常用拉普拉斯修正(Laplaciancorrection)。具体的说,令K表示训练集D中可能的类别数,nj表示第j个属性可能的取值数,则概率估计修正为

拉普拉斯修正实际上假设了属性值与类别均匀分布,这是在朴素贝叶斯学习中额外引入的关于数据的先验。在训练集变大时,修正过程所引入的先验的影响也会逐渐变得可忽略,使得估值渐趋向于实际概率值。

在现实任务中朴素贝叶斯有多种实现方式。例如,若任务对预测速度要求较高,则对给定训练集,可将朴素贝叶斯分类器涉及的所有概率估值事先计算好存储起来,这样在进行预测时只需查表即可进行判别。若任务数据更替频繁,则可采用懒惰学习方式,先不进行任何训练,待收到预测请求时再根据当前数据集进行概率估值。若数据不断增加,则可在现有估值基础上,仅对新增样本的属性值所涉及的概率估值进行计数修正即可实现增量学习。

定义4(增量学习(incrementallearning))。在学得模型后,再接收到训练样例时,仅需根据新样例对模型进行更新,不必重新训练整个模型,并且先前学得的有效信息不会被“冲掉”。

5.4朴素贝叶斯分类器的推广

朴素贝叶斯分类器采用了属性条件独立性假设,但在现实任务中这个假设往往很难成立。于是,人们尝试对属性条件独立性假设进行一定程度的放松,适当考虑一部分属性间的相互依赖关系,这样既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系,由此产生一类半朴素贝叶斯分类器(semi-naiveBayesclassifers)的学习方法。

能否通过考虑属性间高阶依赖进一步提升泛化性能相比ODE,kDE考虑最多k个父属性。随着依赖的属性个数k的增加,准确进行概率估计所需的训练样本数量将以指数级增加。因此,若训练数据非常充分,泛化性能有可能提升。但在有限样本条件下,则又陷入高阶联合概率的泥沼。

更进一步,贝叶斯网(Bayesiannetwork),也称为信念网(beliefnetwork),能表示任意属性间的依赖性。贝叶斯网是一种概率图模型,借助有向无环图刻画属性间的依赖关系。

事实上,虽然朴素贝叶斯的属性条件独立假设在现实应用中往往很难成立,但在很多情形下都能获得相当好的性能[2,8]。一种解释是对分类任务来说,只需各类别的条件概率排序正确,无须精准概率值即可导致正确分类结果[2]。另一种解释是,若属性间依赖对所有类别影响相同,或依赖关系能相互抵消,则属性条件独立性假设在降低计算开销的同时不会对性能产生负面影响[15]。朴素贝叶斯分类器在信息检索领域尤为常用[6]。

6快问快答

随机梯度下降和标准梯度下降的优缺点各是什么

参数更新速度。标准梯度下降需要遍历整个训练集才能计算出梯度,更新较慢。随机梯度下降只需要一个训练样例即可计算出梯度,更新较快。

冗余计算。当训练集样本存在冗余时,随机梯度下降能避免在相似样例上计算梯度的冗余。

梯度中的随机因素/噪声。标准梯度下降计算得到的梯度没有随机因素,一旦陷入局部极小将无法跳出。随机梯度下降计算得到的梯度有随机因素,有机会跳出局部极小继续优化。

实际应用时,常采用随机梯度下降和标准梯度下降的折中,即使用一部分样例进行小批量梯度下降。此外,相比随机梯度下降,小批量梯度下降还可以更好利用矩阵的向量化计算的优势。

梯度下降和牛顿法的优缺点各是什么

导数阶数。梯度下降只需要计算一阶导数,而牛顿法需要计算二阶导数。一阶导数提供了方向信息(下降最快的方向),二阶导数还提供了函数的形状信息。

计算和存储开销。牛顿法在参数更新时需要计算Hessian矩阵的逆,计算和存储开销比梯度下降更高。

学习率。梯度下降对学习率很敏感,而标准的牛顿法不需要设置学习率。

收敛速度。牛顿法的收敛速度比梯度下降更快。

牛顿法不适合小批量或随机样本。

实际应用时,有许多拟牛顿法旨在以较低的计算和存储开销近似Hessian矩阵。

线性回归的损失函数及梯度推导。

答案见上文。

为什么要使用正则化,1和2正则化各自对应什么分布,各有什么作用

对数几率回归的损失函数及梯度推导。

线性分类器如何扩展为非线性分类器

判别式模型和生成式模型各是什么,各自优缺点是什么,常见算法中哪些是判别式模型,哪些是生成式模型

贝叶斯定理各项的含义

朴素贝叶斯为什么叫“朴素”贝叶斯

为了避开从有限的训练样本直接估计p(x|y)的障碍,朴素贝叶斯做出了属性条件独立假设,该假设在现实应用中往往很难成立。

References

[1]P.L.CombettesandV.R.Wajs.Signalrecoverybyproximalforward-backwardsplitting.MultiscaleModeling&Simulation,4(4):1168–1200,2005.5

[2]P.M.DomingosandM.J.Pazzani.Ontheoptimalityofthesimplebayesianclassiferunderzero-oneloss.MachineLearning,29(2-3):103–130,1997.12

[3]B.Efron.Bayesians,frequentists,andscientists.JournaloftheAmericanStatisticalAssociation,100(469):1–5,2005.1

[4]N.Friedman,D.Geiger,andM.Goldszmidt.Bayesiannetworkclassifers.MachineLearning,29(2-3):131–163,1997.12

[5]P.J.Huber.Robustestimationofalocationparameter.AnnalsofStatistics,53(1):492–518,1964.6

[6]D.D.Lewis.Naive(bayes)atforty:Theindependenceassumptionininformationretrieval.InProceedingsofthe10thEuropeanConferenceonMachineLearning(ECML),pages4–15,1998.13

[7]K.P.Murphy.MachineLearning:AProbabilisticPerspective.MITPress,2012.5,6

[8]A.Y.NgandM.I.Jordan.Ondiscriminativevs.generativeclassifers:Acomparisonoflogisticregressionandnaivebayes.InAdvancesinNeuralInformationProcessingSystems14(NIPS),pages841–848,2001.12

[9]F.J.Samaniegos.AComparisonoftheBayesianandFrequentistApproachestoEstimation.SpringerScience&BusinessMedia,2010.1

[10]R.Tibshirani.RegressionshrinkageandselectionviatheLASSO.JournaloftheRoyalStatisticalSociety.SeriesB(Methodological),pages267–288,1996.4

[11]R.Tibshirani,M.Saunders,S.Rosset,J.Zhu,andK.Knight.Sparsityandsmoothnessviathefusedlasso.JournaloftheRoyalStatisticalSociety:SeriesB(StatisticalMethodology),67(1):91–108,2005.5

[12]A.N.TikhonovandV.I.Arsenin.SolutionsofIll-posedProblems.Winston,1977.4

[13]G.I.Webb,J.R.Boughton,andZ.Wang.Notsonaivebayes:Aggregatingone-dependenceestimators.MachineLearning,58(1):5–24,2005.12

[14]M.YuanandY.Lin.Modelselectionandestimationinregressionwithgroupedvariables.JournaloftheRoyalStatisticalSociety:SeriesB(StatisticalMethodology),68(1):49–67,2006.5

[15]H.Zhang.Theoptimalityofnaivebayes.InProceedingsoftheSeventeenthInternationalFloridaArtifcialIntelligenceResearchSocietyConference(FLAIRS),pages562–567,2004.13

[16]H.ZouandT.Hastie.Regularizationandvariableselectionviatheelasticnet.JournaloftheRoyalStatisticalSociety:SeriesB(StatisticalMethodology),67(2):301–320,2005.5

THE END
1.算法笔记(三)算法学习技巧算法笔记(三) 算法学习技巧 前言 从开始学习算法已经有两三个多月的时间了,从简单到深入层次展开,层层优化,对算法的理解也在逐渐加深,不在那么片面,虽然现在还是片面一些,对它的了解也仅仅知道冰山一角,还有很多的内容需要我们去学习去挖掘。 思路 在学习前我们要尽可能快速阅读一遍要学习的书籍,这样不仅仅让我们https://www.code456.com/article/3598351.html
2.保姆级学习时间线分享零基础如何入门算法竞赛?学习算法基础知识,如时间复杂度、空间复杂度等,学会根据题目数据猜算法复杂度和打表。 掌握基本排序算法,如冒泡排序、选择排序、插入排序(主要学习算法思想)等。 学习基础算法,如前缀和与差分、二分查找、双指针、离散化、快速幂、乘法逆元、gcd、lcm等。 https://zhuanlan.zhihu.com/p/646850472
3.如何有效学习算法?算法学习算法设计与分析: 算法设计:学习常用的算法设计技巧,如分治法、动态规划、贪心算法、回溯算法等 算法分析:掌握时间复杂度和空间复杂度分析方法 实践练习: 在线平台:使用LeetCode、HackerRank、Codeforces、AtCoder等在线平台进行算法题目练习 项目实践:参与开源项目或自己动手实现一些算法项目,以实际应用加深理解 https://blog.csdn.net/qq_49548132/article/details/140109291
4.2020年深度学习算法工程师面经(微软阿里商汤滴滴华为简单分为深度学习、机器学习基础、图像处理基础、数学基础、算法基础、程序设计语言、模型部署、HR面试以及与我本人简历相关的目标检测、属性识别、Kaggle及天池的比赛、创新想法等几个部分介绍。可能开始会有重叠或者分类不恰当,后面会逐渐更新完善。其中第一篇先介绍到HR面试,第二篇介绍个人相关的项目和比赛部分。https://maimai.cn/article/detail?fid=1514590373&efid=Oph3033j5Qs70xHZdz0sGA
5.统计学习方法读书笔记——第七章支持向量机,是线性可分支持向量机学习的基本算法: 支持向量: 7.2 线性支持向量机与软间隔最大化 7.2.1 线性支持向量机 线性可分问题的支持向量机学习方法对线性不可分的训练数据是不适用的。通常情况,训练数据中有一些特异点,这些特异点去除后,剩下大部分的样本点组成的集合是线性可分的。这就需要修改硬间隔最大化,使其https://www.jianshu.com/p/4dfef2ab343d
6.数学六年级上册第三单元知识点知识点一:一个数除以分数的计算方法 一个数除以分数,等于这个数乘分数的倒数。 知识点二:分数除法的统一计算法则 甲数除以乙数(0除外),等于甲数乘乙数的倒数。 知识点三:商与被除数的大小关系 一个数(0除外)除以小于1的数,商大于被除数,除以1,商等于被除数,除以大于1的数,商小于被除数。0除以任何数商都https://www.oh100.com/shuxue/2052329.html
7.小学数学知识点总结学好数学的方法和技巧总结 主动预习 预习的目的是主动获取新知识的过程,有助于调动学习积极主动性,新知识在未讲解之前,认真阅读教材,养成主动预习的习惯,是获得数学知识的重要手段。 因此,要注意培养自学能力,学会看书。如自学例题时,要弄清例题讲的什么内容,告诉了哪些条件,求什么,书上怎么解答的,为什么要这样解答,https://www.ruiwen.com/zhishidianzongjie/6527154.html
8.计算机专业实践报告(通用12篇)随着网络技术的不断发展,网络安全问题日益突出。学生们在实践中学习了网络攻防技术、渗透测试等相关知识,通过模拟实战练习,掌握了防范和应对网络安全威胁的方法和技巧。实践中的挑战与收获,为学生们未来从事网络安全相关工作打下了坚实的基础。 3.人工智能 https://www.gdyjs.com/shiyongwen/shijianbaogao/133930.html
9.高中信息技术课程标准高中信息技术课程强调结合高中学生的生活和学习实际设计问题,让学生在活动过程中掌握应用信息技术解决问题的思想和方法;鼓励学生将所学的信息技术积极地应用到生产、生活乃至信息技术革新等各项实践活动中去,在实践中创新,在创新中实践。 (五) 注重交流与合作,共同建构健康的信息文化 https://www.fqkhzx.cn/index/article/view/id/94.html
10.数学高手必备的6大学习方法!考试的功能有两种:检验和选拔。除了中考、高考、竞赛类考试以外,其余几乎都是检验学生对知识的掌握情况,从中发现问题,帮助学生查漏补缺、调整学习方法。 所以,考后试卷分析其实是考试的一部分,或者说,与分数的获得相比,考后试卷分析才是真正收获的手段。 https://mp.weixin.qq.com/s?__biz=MzA4Mjg0ODA1Ng==&mid=2649884519&idx=1&sn=70ad293c59887f6af8a982116e470bdb&chksm=86c734663d8608aa3385fbac468a56082af71413668f1a8d010f3cad9997a57676331f280796&scene=27
11.学习,是治愈焦虑的良药只有不断学习、奔跑、更新自己的知识体系,外界发生的变化才不足以影响我们。 相反,如果我们在焦虑的时期选择躺平、摆烂,却不去学习,还抱怨不休,那么我们就会陷入双重困境,无法自拔。 二、建立一套有意识的学习算法 1.人的学习风格天然存在差异 我曾采访过很多人,包括小朋友,发现每个人的学习方法都不一样。在课堂上https://36kr.com/p/2375197738412036
12.计算机应用基次程学习心得体会(精选22篇)其次,学习了常用的办公软件,主要有word,excel,powerpoint等,以及常用的计算机知识的应用技巧,同时也学习了一些解决实际应用过程中经常出现的问题的方法,相信这次学习,会让我在今后的工作中运用电脑时能够得心应手。为了提高大家的认识,老师不仅采用操作演示的办法,而且还为我们提供实践操作的机会。 https://www.yjbys.com/xuexi/xinde/3607983.html
13.DizzyK/ustccyber教材: 人工智能导论模型与算法, 高等教育出版社, 吴飞 参考书: 机器学习, 清华大学出版社, 周志华 很有名的一本书, 绰号"西瓜书" 参考书: 神经网络与深度学习, 机械工业出版社, 邱锡鹏 教学内容: 搜索, 知识的表示方式, 确定性逻辑推理, 非精确性概率推理, 统计学习方法, 深度学习, 强化学习与博弈 https://toscode.gitee.com/DizzyK/ustc_cyber_security
14.深度学习:图像识别(匹配)方法室内定位论文与方法整理方法:基于深度学习的特征点匹配算法、实时匹配算法、3维点云匹配算法、共面线点不变量匹配算法,以及基于深度学习的图像区域匹配等。 分类:局部不变特征点匹配、直线匹配、区域匹配 Part1:局部不变特征点匹配-2D 1. 什么是图像特征点?- 关键点+描述子 https://blog.51cto.com/hongpangzi/5247231
15.趣学算法(第2版)本书实例丰富、通俗易懂,以大量图解展示算法的求解过程,重点讲解遇到实际问题如何分析和设计算法,讲解方式富有启发性,有利于激发学生的学习兴趣和创新潜能。书中汇集了作者根据多年教学实践总结出的各种算法的解题技巧并对知识进行了优化拓展。读者阅读时既能掌握解题的方法,又拓宽了视野,有利于培养其逻辑思维能力,为解决https://www.epubit.com/bookDetails?id=UB7d85fa69dcbd8
16.一文看懂机器学习「3种学习方法+7个实操步骤+15种常见算法」机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。 所以,机器学习不是某种具体的算法,而是很多算法的统称。 机器学习包含了很多种不同的算法,深度学习就是其中之一,其他方法包括决策树,聚类,贝叶斯等。 https://easyai.tech/ai-definition/machine-learning/
17.统计学习方法(豆瓣)喜欢读"统计学习方法"的人也喜欢· ··· 利用Python进行数据分析8.6 数学之美8.7 集体智慧编程9.0 凸优化9.4 R语言实战8.8 Machine Learning9.1 统计自然语言处理(第2版)8.6 动手学深度学习9.2 数据科学实战8.0 算法导论(原书第3版)9.3 当前版本有售· ··· 得到 9.90https://book.douban.com/subject/10590856/
18.算法数据结构体系学习班马士兵教育官网注意原“算法与数据结构进阶班”已经过期。所有内容已经被现在的“算法数据结构体系学习班”和“大厂算法和数据结构刷题班”重新讲述,增加了新的内容,新的题目。比过去内容只多不少。 如果你时间非常有限,你可以先跳过算法数据结构体系学习班如下的章节: 36-38:有序表 42-43:四边形不等式技巧 45-46:DC3算法、https://www.mashibing.com/course/339
19.学习算法的心得体会.docx我认为这种方法是比较贴合实际的。四?心得体会在计算机软件专业中,算法分析与设计是一门非常重要的课程,很多人为它如痴如醉。很多问题的解决,程序的编写都要依赖它,在软件还是面向过程的阶段,就有程序=算法+数据结构这个公式。算法的学习对于培养一个人的逻辑思维能力是有极大帮助的,它可以培养我们养成思考分析问题,https://m.book118.com/html/2023/0516/8122030053005067.shtm