机器学习的四个过程

机器学习是人工智能的一个分支,它通过揭示数据模式(即特征和目标变量之间的关系)来模拟人类的学习能力。特征是表示给定观察点或数据点的属性的独立变量。另一方面,目标变量是一个因变量,我们感兴趣的建模作出预测。

机器学习建模是数据科学项目生命周期中的一个重要步骤,也是该项目中最有趣的部分之一。

机器学习建模中的4个关键过程

现在,让我们深入研究机器学习建模中的四个主要过程。

训练

在进行进一步试验之前,训练过程通常是针对基线模型进行的,作为项目的基准。基线模型可以是一个简单的算法,例如线性回归或带默认设置的随机森林算法。基线模型的选择很大程度上取决于问题和数据从业者的经验。

大多数机器学习算法通过拟合方法进行训练。

以下是常用的训练术语:

串行训练:这种类型的训练大多在单个处理器上进行,广泛用于简单到中等的训练工作。

分布式训练:在这里,适合一个算法的工作负载被分解并在多个微处理器之间共享。这就是所谓的并行计算,它有助于加快这一进程。点击这里查看更多详情。

离线学习:在这种情况下,对所有可用数据定期进行训练,只有在性能令人满意时才将模型部署到生产环境中。

在线学习:在这里,模型权重和参数随着新的数据流的出现而不断实时更新。

调优

在调优过程中需要避免的一个常见缺陷是对此过程使用测试集。相反,需要为此创建并使用验证集。更妙的是,需要采用交叉验证等方法来防止过拟合。

Python中已经实现了一些易于使用的模块,它们可以用于超参数优化,即GridSearchCV、RoddSearchCV和BayesSearchCV。

预测

一旦选择了最佳模型,就可以使用测试数据和其他新的数据集进行预测,而不需要在模型的输入数据中提供目标变量。这也被称为机器学习推理。

评估

模型评估是评估机器学习模型预测性能的过程。其主要思想是从模型中量化预测的质量。在超参数优化过程中使用的相同指标可以在这里使用,为了结果表示的目的,也可以添加新的指标。

sklearn有三种不同的API用于评估模型预测的质量:

估计器评分方法:估计器有一种评分方法,为他们设计要解决的问题提供默认的评估标准。这一点在本次没有讨论,可以通过浏览每个估价器的文档进行学习。

评分参数:使用交叉验证等模型评估工具(如

model_selection.cross_val_score和model_slection.GridSearchCV)的内部评分策略。通过scoring参数设置指定评估工具。

度量函数:sklearn.metrics模块实现用于特定目的的预测误差评估功能。这些度量在分类度量、多标签排名度量、回归度量和聚类度量部分中有详细说明。

最后,虚拟估值器有助于获得随机预测的这些指标的基线值。

评分参数:定义模型评价规则

使用model_selection等工具进行模型选择和评估。

model_selection.GridSearchCV和model_selection.cross_val_score中使用一个scoring参数来控制它们应用于评估的估计器的度量。

classsklearn.model_selection.GridSearchCV(estimator,param_grid,*,scoring=None,n_jobs=None,refit=True,cv=None,verbose=0,pre_dispatch='2*n_jobs',error_score=nan,return_train_score=False)sklearn.model_selection.cross_val_score(estimator,X,y=None,*,groups=None,scoring=None,cv=None,n_jobs=None,verbose=0,fit_params=None,pre_dispatch='2*n_jobs',error_score=nan)

常见案例:预定义值

对于最常见的用例,您可以使用scoring参数指定一个评分器对象;下表显示了所有可能的值。所有评估器对象都遵循较高返回值优于较低返回值的约定。因此,度量模型与数据之间距离的度量,例如:

metrics.mean_squared_error,可以用neg_mean_squared_error返回度量的负值,以满足上面的基本约定。

机器学习是人工智能应用研究较为重要的分支,它的发展过程大体上可分为4个阶段。

第一阶段是在20世纪50年代中期到60年代中期,属于热烈时期。在这个时期,所研究的是“没有知识”的学习,即“无知”学习;其研究目标是各类自组织系统和自适应系统;其主要研究方法是不断修改系统的控制参数以改进系统的执行能力,不涉及与具体任务有关的知识。指导本阶段研究的理论基础是早在20世纪40年代就开始研究的神经网络模型。

随着电子计算机的产生和发展,机器学习的实现才成为可能。这个阶段的研究导致了模式识别这门新科学的诞生,同时形成了机器学习的两种重要方法,即判别函数法和进化学习。塞缪尔的下棋程序就是使用判别函数法的典型例子。不过,这种脱离知识的感知型学习系统具有很大的局限性。无论是神经模型、进化学习或是判别函数法,所取得的学习结果都很有限,远不能满足人们对机器学习系统的期望。

机器学习

第二阶段在20世纪60年代中期至70年代中期,称为机器学习的冷静时期。本阶段的研究目标是模拟人类的概念学习过程,并采用逻辑结构或者图结构作为机器内部描述。机器能够采用符号来描述概念(符号概念获取),并提出关于学习概念的各种假设。

本阶段的代表性工作有温斯顿(Winston)的结构学习系统和海斯罗思(HayesRoth)等的基于亚辑的归纳学习系统。虽然这类学习系统取得较大的成功,但只能学习单一概念,而且未能投人实际应用。此外,神经网络学习因为理论缺陷未能达到预期效果,机器学习的研究转入低潮。

第三阶段从20世纪70年代中期至80年代中期,称为复兴时期,在这个时期,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和各种学习方法。机器的学习过程一般都建立在大规模的知识库上,实现知识强化学习。龙其令人鼓舞的是,本阶段已开始把学习系统与各种应用结合起来,并取得很大的成功,促进了机器学习的发展。

在出现第一个专家学习系统之后,示例归约学习系统成为研究主流,自动知识获取成为机器学习的应用研究目标。1980年,在美国卡内基梅隆大学(CMU)召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。此后,机器归纳学习进人应用,1988年,国际杂志《机器学习》(MachineLearning)创刊,迎来了机器学习蓬勃发展的新时期。

机器学习的最新阶段始于1986年,一方面,由于神经网络研究的重新兴起,对连接机制(connectionism)学习方法的研究方兴未艾,机器学习的研究已在全世界范围内出现新的高潮,对机器学习的基本理论和综合系统的研究得到加强和发展。

另一方面,实验研究和应用研究得到前所未有的重视。人工智能技术和计算机技术快速发展,为机器学习提供了新的更强有力的研究手段和环境。具体地说,在这一时期符号学习由“无知”学习转向有专门领域知识的增长型学习,因面出现了有一定知识背景的分析学习,神经网络由于隐节点和反向传播算法的进展,使连接机制学习东山再起,向传统的得号学习发起挑战,基于生物发有进化论的进化学习系统和遗传算法,因吸取了归纳学习与连接机制学习的长处面受到重视。

基于行为主义(actionism)的增强(reinforcement)学习系统因发展新算法和应用连接机制学习遗传算法的新成就而显示出新的生命力,1989年瓦特金(Watkins)提出Q-学习,促进了增强学习的深入研究。

机器学习进入新阶段的重要表现在下列方面:

(1)机器学习已成为新的边缘学科并在高校形成一门课程。它合应用心理学,生物学和神经生理学以及数学,自动化和计算机科学形成机器学习的理论基础。

(2)结合各种学习方法,取长补短的多种形式的集成学习系统研究正在兴起。

(3)机器学习与人工智能各种基础问题的统一性观点正在形成,例如学习与问题求解结合进行、知识表达便于学习的观点产生了通用智能系统SOAR的组块学习。

(4)各种学习方法的应用范围不断扩大,一部分已形成商品。归纳学习的知识获取工具已在诊断分类型专家系统中广泛使用。

(5)数据挖掘和知识发现的研究已形成热潮,并在生物医学、金融管理、商业销售等领域得到成功应用,给机器学习注入新的活力。

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

加利福尼亚州圣克拉拉县2024年8月30日/美通社/--数字化转型技术解决方案公司Trianz今天宣布,该公司与AmazonWebServices(AWS)签订了...

伦敦2024年8月29日/美通社/--英国汽车技术公司SODA.Auto推出其旗舰产品SODAV,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。SODAV工具的开发耗时1.5...

北京2024年8月28日/美通社/--越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

要点:有效应对环境变化,经营业绩稳中有升落实提质增效举措,毛利润率延续升势战略布局成效显著,战新业务引领增长以科技创新为引领,提升企业核心竞争力坚持高质量发展策略,塑强核心竞争优势...

北京2024年8月27日/美通社/--8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。活动现场NVI技术创新联...

北京2024年8月27日/美通社/--在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

山海路引岚悦新程三亚2024年8月27日/美通社/--近日,海南地区六家凯悦系酒店与中国高端新能源车企岚图汽车(VOYAH)正式达成战略合作协议。这一合作标志着两大品牌在高端出行体验和环保理念上的深度融合,将...

上海2024年8月28日/美通社/--8月26日至8月28日,AHNLAN安岚与股神巴菲特的孙女妮可巴菲特共同开启了一场自然和艺术的疗愈之旅。妮可·巴菲特在疗愈之旅活动现场合影...

8月29日消息,近日,华为董事、质量流程IT总裁陶景文在中国国际大数据产业博览会开幕式上表示,中国科技企业不应怕美国对其封锁。

上海2024年8月26日/美通社/--近日,全球领先的消费者研究与零售监测公司尼尔森IQ(NielsenIQ)迎来进入中国市场四十周年的重要里程碑,正式翻开在华发展新篇章。自改革开放以来,中国市场不断展现出前所未有...

上海2024年8月26日/美通社/--今日,高端全合成润滑油品牌美孚1号携手品牌体验官周冠宇,开启全新旅程,助力广大车主通过驾驶去探索更广阔的世界。在全新发布的品牌视频中,周冠宇及不同背景的消费者表达了对驾驶的热爱...

此次发布标志着Cision首次为亚太市场量身定制全方位的媒体监测服务。芝加哥2024年8月27日/美通社/--消费者和媒体情报、互动及传播解决方案的全球领导者Cis...

上海2024年8月27日/美通社/--近来,具有强大学习、理解和多模态处理能力的大模型迅猛发展,正在给人类的生产、生活带来革命性的变化。在这一变革浪潮中,物联网成为了大模型技术发挥作用的重要阵地。作为全球领先的...

北京2024年8月27日/美通社/--高途教育科技公司(纽约证券交易所股票代码:GOTU)("高途"或"公司"),一家技术驱动的在线直播大班培训机构,今日发布截至2024年6月30日第二季度未经审计财务报告。2...

8月26日消息,华为公司最近正式启动了“华为AI百校计划”,向国内高校提供基于昇腾云服务的AI计算资源。

THE END
1.有关循环神经网络的详细内容- 循环神经网络是一类用于处理序列数据的神经网络。与传统的前馈神经网络不同,RNN具有循环连接,能够对序列中的历史信息进行记忆和利用。它的神经元不仅接收当前输入,还接收来自上一时刻的隐藏状态作为输入,这种结构使得它在处理具有时间序列或序列依赖关系的数据时非常有效。 https://blog.csdn.net/m0_63243562/article/details/144358010
2.机器学习——神经网络与深度学习:从基础到应用神经网络是一类仿生算法,通过连接不同的节点(即神经元),实现信息的传递和处理。每个神经元都能接收多个输入信号,经过加权求和后通过激活函数产生输出。神经网络最早于20世纪40年代提出,但直到深度学习技术兴起,才得以广泛应用。https://cloud.tencent.com/developer/article/2456527
3.科学网—[转载]群视角下的多智能体强化学习方法综述该类问题的研究是为了帮助智能体之间达成合作交流或竞争的目的,在自主学习的基础上,增加可交流模块,学习何时交流、如何交流等。此部分工作通常考虑部分可观环境中的一组协作智能体,其中智能体需要通过信息交互来最大化它们的联合回报。Foerster等人[22]提出了RIAL和DIAL算法,两种方法都是利用神经网络拟合值函数以及智能体https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
4.2020届计算机科学方向毕业设计(论文)阶段性汇报本次汇报将主要更新建图算法设计,深度学习模型设计方案、以及在两个关系抽取数据集上的初步实验进展;在训练调优方向,稳定整体训练过程并减少数据分布不平衡带来的影响,提升模型整体表现;继续探索针对知识图谱子图的图神经网络更新策略,利用好关系类型在三元组表征方式中的信息,高效挖掘高阶的结构化关系知识。 https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
5.强化学习笔记(1.0)【3】另一种分类方式,在线学习和离线学习 在线学习:本人在场,本人边玩边学习(on-policy)比如:Sarsa 离线学习:本人可以不在场,本人或者其他人玩,不必边玩边学习(off-policy) Sarsa--在线学习 Q learning,Deep-Q-Network--离线学习 3.为什么要用强化学习 强化学习(Reinforcement Learning)是一个机器学习大家族的分https://www.ctyun.cn/zhishi/p-419744
6.融合用户属性信息的冷启动推荐算法AET在离线训练时,首先使用用户的历史评分数据做矩阵分解,分析用户和商品的潜在语义,可以视作用户的潜在兴趣和商品的潜在用途。然后使用用户的属性数据(如性别、年龄、城市等)和上述提取的用户潜在兴趣训练神经网络。 在线给出推荐预测时,使用上文训练好的神经网络,将目标用户的属性数据映射到用户的潜在兴趣向量(predicted prhttp://www.chinaaet.com/article/3000073409
7.强化学习在线(Online): 智能体在与环境交互的过程中学习。 4. 强化学习的常用算法 Q-learning: 一种无模型、基于价值的算法,使用 Q 函数来估计状态-动作对的价值。 SARSA: 与 Q-learning 类似,但使用当前策略进行学习。 Deep Q-learning: 将 Q-learning 与深度神经网络结合,能够处理高维状态空间。 https://www.jianshu.com/p/d7e03db8d9aa
8.ICLR2022微软亚洲研究院深度学习领域最新研究成果一览在进入下一层前,研究员们会减去本层中产生的周期分量和回看分量,从而鼓励后续的神经网络层聚焦于尚未展开的周期性依赖。按照这样的模式堆叠 N 层就构成了实验涵盖了在线以及离线强化学习的不同情况,均验证了 VLOG 的良好表现。 此外,研究员们还开源了文中使用的麻将强化学习环境和对应的离线强化学习数据集,来https://www.msra.cn/zh-cn/news/features/iclr-2022
9.SLAM算法解析:抓住视觉SLAM难点,了解技术发展大趋势上一届国际计算机视觉大会ICCV,成为了深度学习技术的主场,但在我们宣布卷积神经网络的全面胜利之前,让我们先看看计算机视觉的,非学习几何方面的进展如何。同步定位与地图构建可以说是机器人学领域最重要的算法之一,在计算机视觉和机器人研究社区完成了一些开创性的工作。本文将总结来自 ICCV 实时 SLAM 的未来研讨会的要点https://auto.vogel.com.cn/c/2021-09-28/1135866.shtml