机器学习微积分中的雅可比和海森

让我们通过将Jacobian应用到一个更简单的系统来启动用于机器学习的微积分第3部分。

这里简单的局部微分将给我们一个雅可比向量。让我们颠倒我们的过程,并尝试通过观察向量字段来弄清楚函数的外观。尝试在几个方面找到雅可比的值。

这显示了指向原点的向量。如果我们靠近一点

更小的矢量,但再次指向原点。

看到上面的整个矢量场,我们可以看到原点实际上是系统的最大值。

现在,让我们尝试形成一个雅可比矩阵。该函数将向量作为输入,并且将向量作为输出。

考虑下面的两个函数。

我们可以将这两个视为两个向量空间。一个具有向量uv,而另一个向量xy。

uv系统中的每个点在xy系统中都有一个对应的点。在xy坐标系中绕一个点移动将在uv系统中具有对应的路径,但完全不同。

u和v的雅可比行向量可以矩阵形式编写,因为它们是单个向量的组成部分。

对于矢量值函数,这是我们的雅可比矩阵结构。接下来,让我们将其应用于上一个函数并查看结果。

该常数值表明梯度在任何地方都必须是常数。该矩阵只是从xy空间线性转换为uv空间。如果我们应用向量xy我们得到,

当然,我们遇到的许多函数并不是那么简单甚至是线性的。它们更加复杂,通常是非线性的。

但是,这些函数通常足够平滑。如果我们仔细缩放,我们可以通过将空间中每个较小区域的Jacobian加起来,来考虑较小区域近似线性。转换后,这将使我们改变区域的大小。

我们可以在笛卡尔坐标系和极坐标系之间的转换中体验到这一点。

考虑代表半径和从x轴向上的角度的向量r。我们必须分别用x和y表示它们。

使用三角函数,我们可以将它们编写为以下表达式。

现在,构建雅可比矩阵并找到其行列式。

我们得到r作为最终结果,并且没有θ。这表明,当我们沿着r并远离原点移动时,较小的空间区域将随r缩放。

我希望通过jacobian向量和矩阵在机器学习微积分中有关应用jacobian的讨论有助于建立该概念的直觉。

我们经常听到机器学习中的术语“优化”。在日常生活中,它用来描述制作尽可能好的东西的过程。

在数学中,优化几乎相同。我们试图找到一个函数的输入值,该函数给出相应的输出,作为系统的最大值或最小值。

在现实世界中,优化应用程序可能包括在繁忙的交通中绘制路线,安排工厂的生产计划,选择贸易市场中库存的策略。

现在,提出我们正在查看的上述函数。如果要查找最大值的位置,我们将首先构建jacobian,然后查找x和y的值,使其等于0。

但是,随着函数变得棘手,找到最大值和最小值的位置也会变得棘手。

对于复杂的函数,我们可以通过解析表达式找到其雅可比,但将其设置为0将无济于事。这些函数具有多个位置,且梯度为0。

如果绘制所有函数的最大值和最小值,我们将看到最高的峰和最深的谷。所有的峰都是最大值,所有的谷都是最小值。

最高的单个峰(在这种情况下为A)是全局最大值,而C和E是局部最小值。

同样,点D是全局最小值,点B是局部最小值。

这非常简单。就像我们站在山区一样。如果我们想到达最高峰,我们只需四处张望,找出最高峰,然后向其前进。

但是,如果我们晚上行走会怎样?这种情况类似于我们的函数没有解析表达式的情况。意思是,我们无法绘制整个函数来帮助我们环顾四周。

这种情况经常出现在优化问题中,并且非常具有挑战性。

但是,假设我们有灯光!现在我们可以看到指向山顶的雅可比矢量标志。

但是,雅可比矢量指向峰值可能未必指向最高峰值。也就是说,它们可以指向全局最小值C和E,而不是全局最大值A。这意味着我们可以轻松地最终走向局部最小值。

这种夜间山坡类比通常用于优化方案中。

但是有一些事情要看。这种类比可能会引起误导因素。就是说,当我们评估一个函数时,我们可以在不同点评估它,而无需评估两者之间的任何事情。而且,无论点数多远,计算成本都是相同的。那就是我们实际上并不是在两点之间走动。

这使我们想到了另一个类比“沙坑“。沙坑很深,底部不平坦。

我们可以使用长杆测量沙坑在不同点的深度。沙坑非常深,一旦它进入沙坑,我们就无法将其向侧面移动。我们可以将其拔出并在其他地方尝试。

接下来在用于机器学习的微积分第3部分中,让我们讨论与多元系统有关的另一个重要概念。Hessaina。海森也可以看作是雅可比的延伸。使用jacobian,我们将函数的所有一阶导数计算为向量。在这里,我们将计算矩阵中具有n个变量的函数的二阶导数。

我们已经知道找到高阶导数,我们仅需继续区分函数。偏导数也是如此。如果我们想找到关于x1和2的偏导数,首先我们发现关于x1的偏导数,保持所有其他变量不变。然后,假设所有其他变量均为常数,则针对x2进行区分。

因此,海森将是一个n×n方阵,其中n是函数中变量的数量。

在求解时,首先找到jacobian,然后计算其粗略值是比较容易的。看一个例子。

现在,就每个变量而言,再次区分此雅可比会导致海森。

请注意,Hessian矩阵在对角线上方和下方对称。这表明函数是连续的,没有任何突然的中断。

现在,将x,y和z值传递给hessian矩阵将为我们提供一些数值矩阵,并将告诉我们有关空间中点的信息。

为了形象化这个概念,请考虑一个2D系统。一个更简单的函数

我们可以轻松地可视化此函数。

但是,即使不知道该函数,然后在点0、0处计算jacobian也会得到0的梯度向量。

但是,我们不知道这是最大值还是最小值。检查其他一些点并查看它们是否在上面或下面是另一种发现方法,但肯定不是可靠的方法。

黑森州在这方面提供了帮助。如果其决定因素为正,则我们将处理最大值或最小值。此外,右上角的术语还说明了更多信息。如果是正数,我们将像上述情况一样处理最小值。

再次考虑一下上述函数,稍有改动。

现在行列式为负,我们不再处理最大值或最小值。(0,0)点处的渐变是平坦的。此函数称为鞍形。

坡度为0的位置,但坡度在一个方向上下降,而在另一方向上上升。找到峰时,这可能会导致很多复杂情况。

因此,这为我们提供了另一种轻松导航沙坑的工具!

到目前为止,我们已经看到雅可比矢量如何帮助我们找到空间中每个点的梯度的大小和方向。Hessian进一步说明了我们在梯度0的点上正在评估哪种特征,从而进一步帮助了我们。

所有这些概念将在优化方案中为我们提供帮助,现在我们可以了解为什么对于机器学习必须了解多元演算。

接下来,让我们谈谈现实世界中经常出现的一些函数。

在涉及优化的机器学习的许多应用中,例如神经网络,我们将处理大量的维度。在数十万范围内。显然,在这种情况下,绘制表面和导航并不容易或不可能。我们将不得不依靠我们的2D直觉,让数学指导我们的发展。

同样,即使我们在2D系统中工作,也不一定总是有一个好的分析表达式,在每个较小的区域进行计算都可能非常昂贵。

即使我们可以绘制它,我们也可能没有足够的计算资源来填充它。

接下来,我们上面看到的所有函数都行为良好且非常流畅。但是这些函数可能在其中存在严重的不连续性。使得导航更加困难。

现实世界的另一个挑战是噪音。有许多原因会使我们的函数嘈杂。

这一切一定会引起您的困惑。那么雅可比有什么用?因此,让我们尝试回答这些问题。

如果我们没有函数,那么我们如何首先应用jacobian?这就引出了另一种大规模研究的技术,即数值方法。

使用有限差分法,我们不会在每个点上评估函数。但是只考虑我们知道的那些点,并围绕它们建立一个梯度近似。

在这里的一维场景中,我们计算了很多点。

在更高的维度上这是不可能的。因此,我们以这种方法为基础建立了技术,即,从初始位置开始,我们将通过近似每个偏导数来构建雅可比近似。

因此,考虑x中的一小步,可以计算x中的偏导数。在y上走一小步可得到y的偏导数。

选择步长时,请保持平衡。太大的步长不会给出正确的近似值。步长太小会在计算中带来问题。请记住,我们的计算机将值保存到不超过限制的重要位置。

对于嘈杂的系统,到目前为止已经设计了许多方法。最简单的方法是计算不同步长的梯度,然后取其平均值。

通过对真实场景的讨论,我们意识到,一旦我们离开了平滑函数的空间,而转移到计算量大且嘈杂的函数中,所有这些同时变得更具挑战性和趣味性。

我们现在对多变量系统以及如何驾驭它们很有信心。上述讨论帮助我们建立了处理高维系统的直觉,这种情况在机器学习中非常常见。

在机器学习微积分系列的下一部分中,我们将尝试了解机器学习中一些必要的微积分概念,比如多元链式法则,并使用它来优化神经网络。

THE END
1.机器学习知识点全面总结机器学习知识点总结特征工程:是指在机器学习中对原始数据进行转换、组合和选择等处理,以提取更有用的特征或属性,以帮助机器学习算法更好地理解和处理数据。简而言之,特征工程就是对原始数据进行预处理,以提取有用信息来辅助机器学习。 模型选择:根据问题的特点和数据的特征选择适合的机器学习算法和模型。 https://blog.csdn.net/qq_63159704/article/details/136137934
2.一文理解机器学习三要素腾讯云开发者社区机器学习,作为人工智能的重要分支,使计算机能够通过数据自动学习并不断优化模型,以提高预测和决策的准确性和效率。机器学习方法可以概述如下: 出发点是给定的、有限的训练数据集,假设这些数据遵循独立同分布。同时,假定待学习的模型属于一个特定的函数集合,即假设空间。 https://cloud.tencent.com/developer/article/2421011
3.机器学习算法可分为:()()和()。机器学习算法可分为:()、()和()。正确答案:监督学习|无监督学习;非监督学习|强化学习 点击查看答案进入小程序搜题你可能喜欢监督学习算法通常解决()和()等类型的问题。 点击查看答案进入小程序搜题 无监督学习算法通常解决()和()等类型的问题。 点击查看答案进入小程序搜题https://m.ppkao.com/wangke/daan/00ea4c6c462240dfbddb036289adc3f4
4.Python机器学习(原书第3版)最新章节塞巴斯蒂安·拉施卡著虽然感知器规则提供了良好且易用的入门级机器学习分类算法,但其最大缺点是,如果类不是完全线性可分的,那么它将永远不收敛。前一节的分类任务就是该场景的一个示例。直观地说,原因是权重在不断更新,因为每次迭代至少会有一个错误分类样本存在。当然,我们也可以改变学习速率,增加迭代次数,但是要小心感知器永远都不会https://m.zhangyue.com/readbook/12540913/42.html
5.机器学习中有监督学习和无监督学习的区别表现在什么方面?机器学习主要分为:有监督学习,无监督学习,以及半监督学习等。小编今天给大家分享的主要是有监督学习和无监督学习的比较,希望对于大家机器学习有所帮助。 一、首先来了解一下有监督学习和无监督学习的概念 1、有监督学习(supervised learning)是指从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以https://www.cda.cn/bigdata/28000.html
6.计算机工程与设计杂志中国航天科工集团第二研究院706所主办为综合利用基于情感词典和基于机器学习的两类情感分类方法的优点,提出一种基于情感词汇与机器学习的方面级情感分类方法。通过选取少量情感倾向与评价对象无关的情感词汇对评价搭配进行情感分类;通过构建机器学习分类器,以评价短语对各类别的互信息占比作为分类器的分类概率权重,进行加权计算,选择加权后分类概率最大的类别作https://www.youfabiao.com/jsjgcysj/202001/
7.IJTCS8月17日,“多智能体机器学习”分论坛由北京大学李文新教授、中国科学院自动化研究所张海峰副研究员主持。8月18日,“计算经济学”分论坛由上海交通大学陶表帅助理教授主持。小编为大家带来两个分论坛报告的精彩回顾。 多智能体机器学习分论坛精彩回顾 A Continuum of Solutions to Cooperative Multi-Agent Reinforcementhttps://cfcs.pku.edu.cn/news/240892.htm
8.基于有限积分法和机器学习的场强分布预测方法本文提出了一种基于有限积分法和机器学习的场强预测混合方案,我们在CST中建立地形或建筑物的最基本单元—三角面,仿真计算平面波(射线就是平面波)入射时三角面周围的电磁场分布,找出影响场强分布的特征,仿真在不同输入条件下的输出结果。对三角面周围的空间分为近场区和远场区。近场区通过机器学习模型来预测场强,而https://cdmd.cnki.com.cn/Article/CDMD-10013-1018116500.htm
9.机器学习中的分类和回归王哲MGGAI机器学习中的分类和回归是两种主要的预测建模任务,它们分别处理不同类型的输出变量。 分类(Classification): 定义:分类是一种监督学习任务,其目标是将输入数据映射到预定义的类别中。在分类问题中,模型的输出是一个离散的类别标签。 例子:例如,垃圾邮件过滤是一个二分类问题,其中模型需要将每封电子邮件分为"垃圾邮件https://www.cnblogs.com/wzbzk/p/17834194.html
10.北京航空航天大学2025研究生考试大纲:人工智能学院!北京航空航天大学人工智能学院招收2025年硕士初试自命题科目考试大纲已公布,842人工智能基础综合试卷总分150分,共包括三部分内容。其中机器学习部分为必考内容,占90分;算法设计与分析部分和自动控制原理部分为选考内容,选考内容二选一,均占60分。若同时选考算法设计与https://www.gaodun.com/kaoyan/1653530.html
11.机器学习中常用的几种回归算法及其特点回归是统计学中最有力的工具之一,机器学习监督学习算法分为分类算法和回归算法两种。回归算法用于连续型分布预测,可以预测连续型数据而不仅仅是离散的类别标签。 回归是统计学中最有力的工具之一,机器学习监督学习算法分为分类算法和回归算法两种。回归算法用于连续型分布预测,可以预测连续型数据而不仅仅是离散的类别标签https://www.51cto.com/article/775005.html
12.第28分会:AI辅助的化学反应和复杂体系模拟日程表第28分会:AI辅助的化学反应和复杂体系模拟 主席:胡培君、李磊 编号论文标题报告人时间操作 2024年06月15日 第1时段 口头报告(Oral) 国际会堂:3层301 胡培君 28-KN-001基于量子计算精度的蛋白质动力学模拟及机器学习力场张增辉09:50-10:20关注 28-I-001基于深度势能模型和图神经网络的固态电解质缺陷效应和矿物浮https://www.chemsoc.org.cn/meeting/34th/programs.php?topicid=1343
13.腾讯AI开放平台连接云边端设备、算法和数据,提供全栈式 AI 应用开发、部署、管理等功能 腾讯云TI平台 一站式机器学习生态服务平台,涵盖数据预处理、模型训练、评估、预测全流程 图像识别语音技术自然语言处理AI平台服务智能机器人 限时促销 活动专区 人脸核身特惠活动2折 https://ai.qq.com/
14.CiteScore2022正式发布,AIOpen首获即达22.5分,三大高被引论文值得一AI Open 成立于 2020 年,主要分享关于人工智能理论及其应用的知识处理和前瞻性观点,期刊主编为清华大学计算机系的唐杰教授。 AI Open 三大高被引论文解读 1.图神经网络:方法与应用回顾(Graph neural networks: A review of methods and applications) 近年来,由于图(graph)的强大表达能力,利用机器学习分析图的研究越https://www.thepaper.cn/newsDetail_forward_23420835
15.MindSpore官网9 MindQuantum:快速上手量子模拟与量子机器学习 MindQuantum 最新0.5版本中提供独立的量子模拟模块Simulator,用户可快速对自定义量子线路进行模拟演化并对量子态进行采样,极大方便开发者在MindQuantum环境中设计和验证自己的量子算法。此外我们新增了量子线路和量子态采样的展示模块,开发者也能直观的对量子算法进行修改。 https://www.mindspore.cn/news/newschildren?id=967
16.家长会英语老师发言稿(通用21篇)期中已经结束了,各位家长不要过分纠结在分数的高低。话说回来,从这次练习中不难发现部分同学掌握的不是很到位,以致于在考试中出现了重大失误。这个和平时的学习习惯是分不开的。在座的各位,都明白英语的重要性和必要性。时代真的不同了。以前说有钱能走遍天下,现在会说英语才能游遍世界!https://www.unjs.com/fanwenwang/fayangao/20221210153520_6089196.html