NNDL神经网络与深度学习第2章机器学习概述——学习笔记SapientialM

从绪论我们谈过了,机器学习就是一个构建映射函数的过程。

在早期的工程领域,机器学习也经常称为模式识别(PatternRecognition,PR),但模式识别更偏向于具体的应用任务,比如光学字符识别、语音识别、人脸识别等。这些任务都有一个共同的特点,那就是所谓的“玄学”,也就是,这些任务,我们可以完成,但是我们无法描述为什么我们可以做到。现实世界的问题往往都是这样,十分复杂,很难通过规则来手工实现。所以才有了机器学习,

机器学习就是通过算法使得机器能从大量数据中学习规律从而对新的样本做决策。机器学习有三要素:

常见的机器学习有三种,那就是回归、分类、聚类。

接下来我们就来讲解一下机器学习的三要素

机器学习是通过数据学习一个规律,来进行决策,而这个规律其实就是一种函数。我们不知道这个规律是什么,所以我们通过经验假设了一个函数集合,我们称之为假设空间。而同类问题的假设空间通常是一个函数族,我们将这种函数族,称之为模型。而线性模型的假设空间(模型)就是一个参数化的线性函数族。

损失函数是一个非负实数函数,用来量化模型预测和真实标签之间的差异,也就是评价预测结果的好坏。下面介绍常见的损失函数:

0-1损失函数(0-1LossFunction)表示出了模型在训练集上的错误率。但数学性质不是很好,不连续且导数为0,难以优化。所以常用连续可微的损失函数替代。

平方损失函数(QuadraticLossFunction)经常用在预测标签为实数值的任务中,但不适用于分类问题,定义为:

一般用于分类问题。

对于二分类问题,假设的取值为{1,+1},(;)∈

其中[]+=max(0,).

一个好的模型,应该有一个比较小的期望错误(期望风险),但是由于不知道真实的数据分布和映射函数,实际上无法计算。我们可以选择合适的损失函数,计算经验风险,也就是训练集的平均损失,用经验风险来近似期望风险。

选择了合适的风险函数后,我们寻找一个参数θ,使得经验风险最小化,这就是经验风险最小化原则。

过拟合:有模型f和f'。如果模型f在训练集上比f'的损失小,但模型f在样本集上比f'的损失大,我们称模型f过度拟合训练数据。(过度拟合训练数据只能保证在训练集的准确率,但相反在测试上准确率下降)

过拟合问题往往是由于训练数据少和噪声以及模型能力强等原因造成的。为了解决过拟合问题,一般在经验风险最小化的基础上再引入参数的正则化(Regularization)来限制模型能力,使其不要过度地最小化经验风险。这就是结构风险最小化(StructureRiskMinimization,SRM):

欠拟合:这是一个和过拟合相反的概念,即模型不能很好的拟合训练数据,在训练集的错误率较高。欠拟合一般是模型能力不足导致的。

通过选择合适的损失函数,使用风险最小化原则,我们将机器学习变成了一个最优化问题(Optimization),机器学习就成了一个最优化问题的求解过程,接下来我们要介绍几个优化求解算法。

在机器学习中,优化又可以分为参数优化和超参数优化.模型(;)中的称为模型的参数,可以通过优化算法进行学习.除了可学习的参数之外,还有一类参数是用来定义模型结构或优化策略的,这类参数叫作超参数。常见的超参数包括:聚类算法中的类别个数、梯度下降法中的步长、正则化项的系数、神经网络的层数、支持向量机中的核函数等.超参数的选取一般都是组合优化问题,很难通过优化算法来自动学习.因此,超参数优化是机器学习的一个经验性很强的技术,通常是按照人的经验设定,或者通过搜索的方法对一组超参数组合进行不断试错调整。(所以才会有人为的调参)

很多机器学习方法都倾向于选择合适的模型和损失函数,以构造一个凸函数作为优化目标.但也有很多模型(比如神经网络)的优化目标是非凸的,只能退而求其次找到局部最优解.在机器学习中,最简单、常用的优化算法就是梯度下降法,即首先初始化参数0,然后按下面的迭代公式来计算训练集上风险函数的最小值。其中为第次迭代时的参数值,为搜索步长.在机器学习中,一般称为学习率(LearningRate)!(学习率是十分重要的超参数)

针对梯度下降算法,我们还需要使用提前停止来防止它过度拟合。由于会出现过拟合,除开训练集和测试集,有时还会用一个验证集(ValidationSet)来进行模型选择,测试模型是否能在验证集上最优。每次迭代时,把得到的新模型就可以放在验证集上测试,计算错误率,当错误率不再上升时,停止迭代,这个时候得到的模型就是效果比较好的模型。我们把这种策略称之为提前停止。

如果没有验证集,可以在训练集上划分出一个小比例的子集作为验证集

在前面提到的梯度下降法中,目标函数是整个训练集的风险函数,我们称之为批量梯度下降法(BatchGradientDescent,BGD),它在每次迭代时都需要计算每个样本的损失函数并求和。当样本量过大时,空间复杂度也较大,每次迭代成本很高。如果说,批量梯度下降法是从样本抽出N个样本将其经验风险来近似期望风险,为了减少迭代的计算复杂度,我们可以只抽出1个样本,计算这个样本损失函数的梯度并更新参数,这就是随机梯度下降法(StochasticGradientDescent,SGD)。而当经过足够的迭代次数时,随机梯度下降也可以收敛到局部最优解。随机梯度下降法的训练过程如算法2.1所示.

随机梯度下降相当于在批量梯度下降的梯度上引入了随机噪声.在非凸优化问题中,随机梯度下降更容易逃离局部最优点。凸优化就是找凸函数最小值,由于凸函数只有一个最小值,所以容易找到这类算法,其中最经典最常用的是SGD。实践中这类算法常被用于非凸函数,这么做一般仍然可以找到localminima不过不保证是全局最小值。

Optimizationproblem:Maximizingorminimizingsomefunctionrelativetosomeset,oftenrepresentingarangeofchoicesavailableinacertainsituation.Thefunctionallowscomparisonofthedifferentchoicesfordeterminingwhichmightbe“best.”

小批量梯度下降法(Mini-BatchGradientDescent)是批量梯度下降和随机梯度下降的折中。每次迭代时,我们随机选取一小部分训练样本来计算梯度并更新参数,这样既可以兼顾随机梯度下降法的优点,也可以提高训练效率。

为避免过拟合,我们通常会在模型的拟合能力和复杂度之间平衡。为了平衡拟合能力与复杂度,我们介绍一个分析与指导工具————偏差-方差分解(Bias-VarianceDecomposition)。偏差:指一个模型在不同训练集上的平均性能和最优模型的差异,可以用来衡量一个模型的拟合能力。方差:指一个模型在不同训练集上的差异,可以用来衡量一个模型是否容易过拟合。而最小化期望错误等价于最小化偏差和方差之和。

图2.7给出了机器学习模型的期望错误、偏差和方差随复杂度的变化情况,其中红色虚线表示最优模型。最优模型并不一定是偏差曲线和方差曲线的交点。

以通过降低模型复杂度、加大正则化系数、引入先验等方法可以来缓解模型过拟合,此外还有集成模型也就是引入多个高方差模型的平均来降低方差。之后会有更进一步的了解。、

一般来说,我们会按照训练样本提供的信息以及反馈方式的不同,将机器学习算法分为以下几类(当然其他标准的也有):

一般而言,监督学习通常需要大量的有标签数据集,这些数据集一般都需要由人工进行标注,成本很高.因此,也出现了很多弱监督学习(WeaklySupervisedLearning)和半监督学习(Semi-SupervisedLearning,SSL)的方法,希望从大规模的无标注数据中充分挖掘有用的信息,降低对标注样本数量的要求.强化学习和监督学习的不同在于,强化学习不需要显式地以“输入/输出对”的方式给出训练样本,是一种在线的学习机制。

在机器学习中,有一些非常有名的理论或定理,对理解机器学习的内在特性非常有帮助。

对于基于迭代的最优化算法,不存在某种算法对所有问题(有限的搜索空间内)都有效。如果一个算法对某些问题有效,那么它一定在另外一些问题上比纯随机搜索算法更差。

不能脱离具体问题来谈论算法的优劣,任何算法都有局限性.必须要“具体问题具体分析”

丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大.

因为世界上不存在相似性的客观标准,一切相似性的标准都是主观的

如无必要,勿增实体

如果有两个性能相近的模型,我们应该选择更简单的模型

很多学习算法经常会对学习的问题做一些假设,这些假设就称为归纳偏置。

讲了那么多,接下来我们要从最简单的线性回归模型开始,了解机器学习。

THE END
1.第四范式申请图机器学习任务处理专利,无需用户关注底层代码实现逻辑金融界2024年10月24日消息,国家知识产权局信息显示,第四范式(北京)技术有限公司申请一项名为“图机器学习任务的处理方法、装置、设备及存储介质”的专利,公开号CN 118798268 A,申请日期为2023年9月。 专利摘要显示,本公开涉及一种图机器学习任务的处理方法、装置、设备及存储介质。响应于用户输入的图机器学习任务描述https://www.163.com/dy/article/JF90M85S0519QIKK.html
2.传统机器学习算法总结和整理传统机器学习算法基础知识和公式推导 专栏作者 naruto? 一个深耕风控领域的算法工程师 知乎影响力 获得933 次赞同 · 322 次喜欢 · 2542 次收藏 已更内容 · 20 frudar算法理解 该算法是kdd2016年的最佳论文,主要解决的是从两类结点组成的关系网络图(二部图)中找出内部联系密切和外部联系稀疏的密集https://www.zhihu.com/column/c_1489372446931718144
3.机器学习基础:案例研究法Coursera机器学习基础:案例研究法https://www.coursera.org/learn/ml-foundations
4.机器学习核心概念完全解析(建议收藏)刚接触机器学习框架 TensorFlow 的新手们,这篇由 Google 官方出品的常用术语词汇表,一定是你必不可少的入门资料!本术语表列出了基本的机器学习术语和 TensorFlow 专用术语的定义,希望能帮助您快速熟悉 TensorFlow 入门内容,轻松打开机器学习世界的大门。 A https://blog.51cto.com/u_15343816/3695919
5.机器学习方法(豆瓣)机器学习是以概率论、统计学、信息论、最优化理论、计算理论等为基础的计算机应用理论学科,也是人工智能、数据挖掘等领域的基础学科。 《机器学习方法》全面系统地介绍了机器学习的主要方法,共分三篇。第一篇介绍监督学习的主要方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机https://book.douban.com/isbn/978-7-302-59730-8/
6.浅析现有专利价值评估方法存在问题及优化机制近年来机器学习被大力推广并得到迅速发展,更多的机器学习方法也被应用到专利价值评估中。目前机器学习法主要有决策树、神经网络、支持向量机等方法,在选择评估指标和构建评估指标价值体系时可以运用。在专利价值评估过程中存在人为主观性判断等问题,基于分类回归树模型构建专利价值评估体系可以弥补以上不足,这一算法相比基于https://www.yuannuoip.com.cn/page37?article_id=130
7.机器学习已经与政策评估方法,例如事件研究法结合起来识别政策1.机器学习之KNN分类算法介绍: Stata和R同步实现(附数据和代码),2.机器学习对经济学研究的影响研究进展综述,3.陈硕: 回顾与展望经济学研究中的机器学习,4.最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响!5.Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险!6.Top前沿: 农业http://www.360doc.com/content/21/0507/01/45289182_975931520.shtml
8.《机器学习》第10章降维与度量分析样本的特征数称为维数(dimensionality),当维数非常大时,也就是现在所说的“维数灾难”,具体表现在:在高维情形下,数据样本将变得十分稀疏,因为此时要满足训练样本为“密采样”的总体样本数目是一个触不可及的天文数字,训练样本的稀疏使得其代表总体分布的能力大大减弱,从而消减了学习器的泛化能力;同时当维数很高时,计https://www.jianshu.com/p/db8f15c3fe56
9.图像预处理之图像去重2.图像比对法:通过对图像的直方图或灰度共生矩阵等特征进行比对来识别重复图像。 3.机器学习法:通过训练机器学习模型来识别重复图像,例如使用卷积神经网络(CNN)。 4.特征提取法:通过提取图像的特征,例如 SIFT 等,并将其映射到一个空间中,以识别重复图像。 https://developer.aliyun.com/article/1268209
10.用于对抗体进行分类的系统和方法与流程在一些实施例中,本文提供的方法将定向进化与机器学习相组合以基于输入氨基酸序列开发新蛋白质。在一些实施例中,所提供的方法可以鉴定改善所述结合蛋白的一种或多种性质的氨基酸序列,例如,抗体与抗原或两种或更多种抗原(例如,多特异性)结合的亲和力或特异性的增加。https://www.xjishu.com/zhuanli/05/202080036250.html
11.2018年医疗保险学术论文评选结果公示2. 人工智能集成机器学习方法对医疗保险基金费用控制的探索 作者:吴静 陈信桢 王振刚 熊光练 华中科技大学同济医学院公共卫生学院 华中科技大学同济医学院附属同济医院 3. 城乡居民医保整合背景下的基金可持续性研究 作者:张心洁 周绿林 江苏大学管理学院 4. 基于精算模型测算下的生育保险与职工医疗基本保险整合路径探索https://www.mohrss.gov.cn/SYrlzyhshbzb/zwgk/gggs/tg/201905/t20190516_317940.html
12.万字长文解读电商搜索——如何让你买得又快又好方法词表穷举法,规则解析法,机器学习方法 1.1.1.4 意图识别的难点 输入不规范,不同的用户对同一诉求的表达存在差异。 多意图,“苹果” 可以是产品词,也可以是品牌词;可以是手机,也可以是水果。 数据冷启动。当用户行为数据较少时,很难获取准确的意图。 https://maimai.cn/article/detail?fid=1491647480&efid=3et1sa5sE1zd64aDT-YEwg
13.总结:Bootstrap(自助法),Bagging,Boosting(提升)简书.pdf在小样本数据集上,Bootstrap方法可以有效地利用有限的信息,提高模型的准确性。对于集成学习而言,理解Bootstrap、Bagging、Boosting等概念,对于设计和实现有效的机器学习系统至关重要。 展开 资源推荐 资源详情 资源评论 Boosting算法简介 浏览:101 Boosting算法简介笔记 Boosting算法简介笔记 Boosting算法简介笔记 统计https://download.csdn.net/download/qq_15141977/11859590
14.数据挖掘的定义及算法今日头条数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 数据挖掘的对象 数据的类型可以是结构化的、半结构化的,甚至是异构型的。发现知识的方法可以是数学的、非数学的,也可以是归纳的。最终被发现了的知识可以用于信息管理、https://www.elecfans.com/news/1704976.html