机器学习中的概念区分:模型vs算法

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2023.02.14北京

比较肤浅。搜了一圈之后似乎不同的领域(数学专业,搞算法理论的和搞机器学习实战的)理解似乎也都不太一样,我就站在机器学习领域,偏向应用的算法类的角度找了一些答疑解惑的内容。

这里的算法更接近一种思想或者说策略,可以用语言描述出每个步骤,并不通过训练数据得到结果,只是这种算法思想会体现在代码解题的过程中。

通俗来讲,模型指代的是目标函数,算法则是求解该目标函数的方法。

DecisionTree里,其模型是二叉树模型(暂不讨论多叉树情况)

如果写成目标函数,那么则是一个分段函数,如果是二分类问题,那么这个分段函数取值为0,1。那么有了这个目标函数,怎么求解呢?

两种算法:1.将训练集中的1样本全部归为左叶子,0样本归为右叶子,但是我们都知道这样长出来的决策树不具备预测能力。2.贪心算法,或者叫启发式算法,从根开始,采取一定的分裂原则进行分裂,这个分裂原则有信息增益最大化,Gini系数,方差最小。

那么是不是第二种算法长出来的树就是最优的?当然不是,启发式算法的核心思想是当前最优,所以一定存在一棵决策树要比这样生长出来的树是要好的,比如第一种树就一定比第二种树好。

再举个例子。

XGBoost里,什么是模型,什么是算法?

XGBoost里面,它采用的是加性模型,解这个加性模型的算法是启发式算法或者叫贪心算法,因为同时寻找K个基决策树来降低损失函数是不可能做到的,所以它的想法就是添加一棵树,使得损失下降即可。但是我们要注意,XGBoost采用贪心算法只解出来的决策树的最优叶子值,它没办法一步解决树的结构问题,也即树该长什么样

XGB说只要你的树有这么多个叶子,每个叶子里有哪些样本,那我就可以告诉你,这些叶子的叶子值应该取多少,但是XGB也说,虽然我可以告诉你叶子值是多少,但是你怎么长的我现在还解决不了。

那XGB在长决策树的过程中,采用的还是传统决策树的启发式算法,采用从根开始的启发式分裂算法,只不过XGB由于已经知道了对于任意形态的决策树,它都能计算出这个形态的决策树的最优Loss,那么生长原则便从信息增益最大,变成它自己的那一套Gain最大化。

所以,决策树这个东西,到目前为止,这么多年的发展,其根本采用的方式仍然是启发式分裂,无论是后续的Bagging,Boosting,随机森林,深度森林,它本质上都没改变这些基础算法,只是大家采用的模型在变化而已。

机器学习中的"算法"

机器学习中的“算法”是在数据上运行以创建机器学习“模型”的过程。

机器学习算法执行“模式识别”。算法从数据中“学习”,或者对数据集进行“拟合”。

机器学习算法具有许多特性(这些特性就和以前大学学的算法课的概念很像):

学者可以设计出全新的排序算法,程序员可以在应用程序中使用标准的排序算法。

机器学习中的“模型”

机器学习中的“模型”是运行在数据上的机器学习算法的输出。

模型表示机器学习算法所学到的内容。

模型是在训练数据上运行机器学习算法后保存的“东西”,它表示用于进行预测所需的规则、数字和任何其他特定于算法的数据结构。

参考搜到的东西

以最简单的线性回归算法为例,可以表示为y=ax+bh=f(x)ε=yf(x)y=ax+b\\h=f(x)\\\varepsilon=y-f(x)y=ax+bh=f(x)ε=yf(x)

目标函数就是要找的拟合函数,就是上面的h=f(x)h=f(x)h=f(x)而损失函数就是评估目标函数准确与否的一个函数,如何评估呢,预测值和真实值进行比较就可以,也就是ε=yf(x)\varepsilon=y-f(x)ε=yf(x)

THE END
1.树模型最新研究与应用,探索前沿技术与发展趋势要闻随着科技的飞速发展,机器学习领域日新月异,其中树模型作为一种重要的机器学习算法,一直以来备受关注,近年来,随着大数据时代的到来,树模型在数据挖掘、人工智能等领域的应用愈发广泛,本文将对树模型的最新研究与应用进行综述,探讨其发展趋势及未来挑战。 树模型概述 http://glhhl.com/post/3189.html
2.数据挖掘算法(AnalysisServices–数据挖掘)MicrosoftLearn“数据挖掘算法”是创建数据挖掘模型的机制。为了创建模型,算法将首先分析一组数据并查找特定模式和趋势。算法使用此分析的结果来定义挖掘模型的参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。 算法创建的挖掘模型可以采用多种形式,这包括: https://technet.microsoft.com/zh-cn/library/ms175595(v=sql.100).aspx
3.什么叫模型,什么叫算法lililili——什么叫模型,什么叫算法 之前工作的之前,认为模型和算法是一个东西,并没有区分过。 在工作中,做算法集成工作的过程中,我们需要加载模型,加载算法等概念搞得我有些傻了。 后来在西瓜书上获得了解答:模型其实包含了算法、数据以及任务需求的概念。 也就是说我们是评估一个模型的好坏,而不是算法的好坏。 算法只有https://www.cnblogs.com/li5li5/p/11300985.html
4.第六章机器学习三要素之数据模型算法什么是训练 根据已经被指定的 f(x) 的具体形式——模型类型(如y=f(x)=ax2+bx+c),结合训练数据,计算出其中各个参数的具体取值的过程。 就是已知函数类型和一些输入输出数据求参数。 算法 损失函数(Loss Function) 有监督学习的目标就是:让训练数据的所有 x 经过 f(x) 计算后,获得的 y’ 与它们原本对应https://www.jianshu.com/p/2c52f2e04c9c
5.模型算法数据模型模型结构是什么?它们之间有什么关联和区别?它们之间有什么关联和区别? 本文详细解释了模型、算法、模型结构、数据模型和训练在机器学习中的定义和关系,涵盖了算法的一般定义、机器学习算法的特点,以及不同类型的模型如线性模型、决策树、支持向量机等。同时讨论了算法和模型的区别,以及训练过程在模型构建中的作用。https://blog.csdn.net/qq_32727095/article/details/136653051
6.模型与算法之间是什么关系?如果问题的算法不具有一般性,就没有必要为算法建立模型,因为此时个体和整体的对立不明显,模型的抽象https://m.imooc.com/wenda/detail/447305
7.算法与模型的浅析腾讯云开发者社区讨论问题的前提是概念的澄清,概念的混淆是研发沟通中的一大障碍,极大地影响了沟通的效率。在人工智能尤其是机器学习领域,算法和模型是两个相关而又有区别的两个概念,弄清二者的含义和联系可以使我们讨论的问题更加明确。 什么是算法? 在计算机领域,算法有着明确的定义。为了通俗起见,这里引用百度百科对算法的描述: https://cloud.tencent.com/developer/article/2185463
8.python数学建模之三大模型与十大常用算法详情python这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情,文章围绕主题展开详细的内容介绍,具有一定的参考价值,感想取得小伙伴可以参考一下+ 目录 前言 数学建模的介绍与作用 全国大学生数学建模竞赛:全国大学生数学建模竞赛创办于1992年,每年一届,已成为全国高校规模最大的基础性学科竞赛,也是世界上规模最大的https://www.jb51.net/article/253913.htm
9.什么是模型hitrate评估算法组件人工智能平台PAI(PAI)该组件使用hit_rate_pai.py脚本,实现向量召回评估的功能。本文为您介绍该组件的配置方法。使用限制支持使用的计算引擎为MaxCompute。组件配置您可以使用以下任意一种方式,配置模型hitrate评估组件参数。方式一:可视化配置参数输入桩输入桩(从左到右)建议上游组件对应PAhttps://help.aliyun.com/zh/pai/user-guide/model-hitrate-eval
10.人工智能大模型是什么?如何用它来优化你的数字化营销业务?什么是算法呢?算法是指一系列的步骤和规则,用于解决一个特定的问题或完成一个特定的任务。算法可以用不同的方式来实现,例如数学公式、程序代码、流程图等。算法的好坏,可以用不同的指标来衡量,例如正确性、复杂度、效率、稳定性、可扩展性等。 例如,在自然语言处理领域,大模型广泛使用了Transformer结构,这是一种基https://maimai.cn/article/detail?fid=1813044161&efid=zaYIWDQZ1Ce_EYbDm9k9xQ
11.什么叫基于模型的推荐算法?召回是样本选取的艺术(召回样本优化、召回模型优化、多路召回融合配比优化、种子选取优化),排序是特征https://www.zhihu.com/question/23838165
12.基于什么算法建立模型进行数据分析什么叫基于模型的设计基于什么算法建立模型进行数据分析 什么叫基于模型的设计 前言 在科学中,模型是对某种“真实”事物的简化表示。科学家说是在研究自然,但实际上他们做的大部分工作是在对自然进行建模,并对他们建立的模型进行研究。模型是一种思维方法,成语“去伪存真”就是建模的过程。https://blog.51cto.com/u_16213584/9641837
13.快手新人直播卖货技巧是什么?怎么上热门?1、 快手算法模型 要想上热门,我们首先就要了解快手的算法模型。 在快手的推荐算法中,点赞、评论、完播率、转发、停留时长、活跃度、粉丝数等等,这些指标都是上热门的关键。 比如你视频发布了,系统会根据这些数据,判定你的内容受欢迎程度(即“热度权重”),热度高的,就给你多展现,这时,“热度权重”起到“择优https://www.maijia.com/article/536127
14.速石科技Fsched:国产自研调度器的璀璨新星,数百路线二:AI算法模型训练 Google研究人员使用10,000个芯片布局图来训练他们的深度学习模型——PRIME,人工智能生成的芯片的设计时间不到六个小时。 而NVIDIA设计了另一种用于芯片设计的深度学习方法——PrefixRL模型,NVIDIA使用其RL工具设计的电路比人类使用当今EDA工具设计的电路小25%,但性能相似。 https://www.cet.com.cn/itpd/itxw/3439124.shtml
15.师者王雯婕:致力于提供安全可信的隐私保护的AI系统2. 在模型训练和推理阶段,会涉及典型的机器学习隐私攻击包括成员推理攻击,它们主要攻击目标是通过机器学习模型本身或机器学习模型在预测时的输出,推理某些个体的隐私数据是否在训练集中。课题组致力于将差分隐私算法和联邦学习架构进行融合,尤其是在医疗数据领域的应用,在保证模型性能的基础上更好的保护数据隐私安全。https://sist.shanghaitech.edu.cn/2023/0221/c2858a1074845/page.htm
16.什么叫带权模型1. 带权图中,边带有一个数字,叫做权,它可能代表距离、耗费、时间或其他意义。2. 带权图用来最常解决的问题是最短路径问题(pps)。3. 带权图的最小生成树中有所有的顶点和连接它们的必要的边,且这些边的权值最小。4. 优先级队列的算法可用于寻找带权图的最小生成树。5. https://zhidao.baidu.com/question/1742001265178492747.html