机器学习的基本过程及关键要素

以下首先阐述机器学习的基本过程,罗列了几个主要流程和关键要素;继而展开介绍机器学习主要的算法框架,包括监督学习算法,无监督学习算法和常用的降维,特征选择算法等;最后在业务实践的过程中,给出了一个可行的项目管理流程,可供参考。

1.基本过程

1.1机器学习的五步流程

如果把机器学习当做一个闭环的工作项来看待的话,会发现其实它的整个流程,跟我们日常生活中做其它的事情是异曲同工的,比如做一个ABtest,做一次竞品分析,或者写一个量化策略。只是在其基本过程里,我们所要考虑的问题点,所采用的工具和方法有所不同而已。

以下参考达里欧的五步流程法,尝试将机器学习的基本过程也简化为五个环节。

01确定目标

机器学习的目标并不在于机器学习,而在于我们将这种方法应用到现实场景,去解决现实的问题点。所以在工作开始之前,我们需要想清楚自己是要实现何种目标,比如是要对流失用户进行风险预警,对潜在付费用户进行意愿评估,还是对信贷用户进行欺诈识别。

02诊断问题

因为明确了所要实现的目标,所以可以根据现实基础来诊断问题。为了实现这个目标,需要机器学习给到怎样的输出,单纯的0-1标签即可,还是需要连续的风险概率;目前的数据量是否能支撑这个项目,业务样本的黑白比例是否不够均衡,这些问题都是需要诊断的。

03方案设计

04方案执行

在方案执行的过程中遇到问题时,如何进行解决,也是很重要的环节。机器学习算法的执行,一般称之为最优化的过程,即在一个算法框架下,如何最快地达到最优的结果。而针对整个方案的执行,又会包括数据准备,特征工程,算法调试,模型评估等具体事项,每一个事项相互独立,各有各的方法论,但又相互影响,上下游之间的执行效果环环相扣。

05评估迭代

评估的过程,其实就是一个目标量化的过程,因为有了量化,所以有了绝对意义上的效果优劣。只是不同的业务目标,不同的模型框架,对应的评估体系是不一样的。建立一套合适的评估方式,机器学习项目也就实现了闭环,可以在迭代中去逐步逼近要实现的业务目标。

1.2机器学习的关键要素

01机器学习三要素

如同劳动力,资本,土地等是经济学的基本要素一样,其实机器学习也有自己的三要素,即数据,算法和模型,它们缺一不可,相互关联,并贯穿于工作的整个过程。人们说机器学习的过程,就是准备好充足的数据,应用合适的算法,去生成优良的模型的过程。

02其它关键要点

除了机器学习三要素外,其实也有其它的一些点是相当重要的,比如特征处理,优化算法,和模型评估等。缺少了这些内容,其实模型也能生成,但只能是大打折扣地生成。特征处理决定了模型性能的上限,优化算法让我们以最好的方式去逼近模型性能的上限,而模型评估则定义了什么是我们到底在讨论什么样的模型性能,它们是机器学习项目的“加速器”。

2.监督学习

监督学习要处理的是有标签的数据,即业务场景里有绝对的黑白,明确的好坏,比如在信贷风控的场景下,逾期了就是逾期了,在金融市场的场景下,涨跌也都是界限分明的。通过对历史数据的学习,从而给当前的数据一个离散的标签,或者连续的数值结果。

2.1线性模型

线性模型的出发点很简单,就是考虑一个事情成立的多个因素,比如ABCDE五个因素,每个因素又有各自的权重,权衡过各个因素后,才做出最后的决策。将这个想法转化为数学的表达,也就有了因变量,自变量,系数,偏置这些概念,从而组成了线性模型。

线性模型也可以很复杂,有很长的历史,很多的变体。其中最经典的形式,是在线性基础上添加一个Sigmoid函数,从而将线性输出转化为概率,并进一步转化为黑白标签,也就是逻辑回归。在传统金融场景的评分卡领域里,逻辑回归的应用是非常广泛和深入的。

2.2决策树

决策树的思想可以用四个字来概括,即分而治之。线性模型的因素考虑,是相互并列的,权重各异的,但决策树里不是如此。决策树里的因素是串行的,即先考虑A因素,随后针对A因素中的各种情况,继续考虑新的因素,循环往复,形成了一组决策链路,即决策树。

所以决策树里面最重要的问题,便是在当前这个节点,我应该考虑何种因素,去继续推进这个决策的制定。为了解决这个问题,决策树引入了计算机领域里信息熵的概念,经过推演,有了最大增益和增益率这些指标,对应了ID3和C4.5这两种经典的决策树范式。后来又通过引入基尼系数,作为因素选择的判断条件,从而生成了CART决策树。

2.3贝叶斯

贝叶斯学派和频率学派之间的争辩,很像是物理学里波粒之争,数学家们争执于参数到底存不存在,物理学家们则争执于光到底是波还是粒子。波粒之争最终通过波粒二象性的理论而宣告结局,但贝叶斯和频率学派的争执并没有结束,继续在不同的时代里各领风骚。

频率学派相信存在着一个客观实体(参数),所以要做的就是尽可能地去拟合和逼近这个参数,比如最大似然估计。贝叶斯学派则拒绝相信这一套,他们坚持我看见(先验概率),我思考(后验概率),我决策(贝叶斯模型)。贝叶斯理论广泛应用于文本处理的领域,生成了诸多经典模型,根据因素之间的独立性差异,产生了朴素贝叶斯及其它多种贝叶斯算法。

2.4支持向量机

支持向量机是追求极致的,它要在所有的可行解里面,找到唯一的最优解。在二维平面里,这个解是一条唯一的线,在三维空间里,这个解是一个唯一的面,那么,在N维空间里,这个解就是唯一的超平面了。而用于寻找这个解的样本点,就称之为支持向量。

核函数是支持向量机里的大杀器,与人们所说的“降维打击”类似,核函数是要通过升维的方式去解决问题。如果在当下的困境里找不到答案,那就尝试在更高的维度里去破局。

2.5神经网络

神经网络引入了生物学里神经元的概念。每一个神经元都是简单的,有输入和权重,有阈值和输出,但是用众多神经元搭建起多层网络,网络之间又相互联系时,这个问题就变得复杂了。在2006年后,神经网络转身为深度学习,成就了无数或神秘或伟大的商业故事。

在神经网络的训练过程中,有一个很有意思的事情,就是局部最优和全局最优。模型训练中容易陷入局部最优的困境,停止搜索最优解,就像我们很多时候做事情,只是做好了,但是并不够好。为了解决这个问题,人们设计了模拟退火,随机梯度下降等多种训练策略。

2.6集成学习

集成学习的理念,是“好而不同”。对于一个问题,如果通过单一模型始终给不出最优解,不如集成几个好而不同的子模型,可能会获得性能优异的效果。三个臭皮匠,胜过诸葛亮。每个臭皮匠都有不足,但各有各的优点,而诸葛亮作为单一模型已是极致,却仍有局限。

集成学习有两个分支,如果子模型串行生成,则是Boost,如果子模型并行生成,则是Bagging。Boost强调的是一个一个上,针对前一个子模型的缺陷,通过下一个子模型去补足,xgBoost和GBDT都是其中的代表;Bagging强调的则是一起上,群架好过单挑,通过学习不同的样本,生成不同的子模型。Bagging的一个变体随机森林,便是这一类模型的优秀代表。

3.无监督学习

监督学习处理的是有标签的数据,无监督学习要处理的则是无标签的数据。正是因为没有了这个绝对的标签,所以会更侧重与数据本身的信息和结构,对于模型所得结果的合理性,也会有更丰富和更精细的评估。以下主要介绍一些不同类型的聚类算法。

3.1基于原型

基于原型的聚类,强调在数据中存在着某种确定性的结构,不同类别的结构,应该是不一样的。K-means是原型聚类中的经典代表,它相信数据中存在着K个中心点,通过迭代更新这K个中心点的位置,从而将所有样本点划分进K个原型里面,直至迭代结束。

3.2基于密度

基于密度的聚类,强调如果在数据中存在一个类别,那么这个类别里的样本点之间,是存在一定的紧密程度的,如果不具有的话,那就是属于其它类别。DBSCAN是这一类算法中的代表,它与K-means的不同在于,不预先假设K个中心,而是先寻找一个类别,获取这个类别所有的样本点,再在剩余的数据集里,寻找下一个类别,直到所有样本都找到类别。

3.3基于层次

基于层次的聚类,则是从一个更为立体的角度,对样本点进行自底向上的逐层的划分。AGENS是这一种算法里的代表,在第一层里,它将所有样本点当做是一个初始类别,通过计算类别之间的距离,不断的进行合并,从而在最后一层里保留下指定个数的类别。

相对于监督学习,无监督学习没有了标签的羁绊,反而成为了一个更为开放的场景,出现了一大批的形态各异的算法。但这些不同类型的聚类算法,仍要去讨论一些共同的问题,比如如何去度量聚类结果的性能,这里又分为外部指标和内部指标;比如如何去计算样本点之间的距离,基于不同维度,闵氏距离可以分为曼哈顿距离,欧氏距离,和切比雪夫距离。

4.其它算法

除了监督学习和无监督学习外,有一些算法虽不直接生成具体的模型,但仍然是我们在数据探索,模型训练等过程中所必不可少的,比如降维算法,特征选择算法等。

4.1降维

数据之中的方差,被当做是一种信息的表达方式。如果对当前的数据集进行重构,用少量的几个特征来提取数据集所包含的大量信息,便是降维的理念,其中的优秀代表是PCA。为实现一个业务目标,我们从现实世界中收集的数据,往往不是最优的表达,它们可能有重复,有冗余,通过降维的方式,可以对这些原始数据进行重构,生成一个更好的数据表达。

4.2特征选择

机器学习算法,是用来炒菜的,但是你要选择哪些食材去炒,本身也是一个问题点。要做一份扬州炒饭,肯定不会把厨房里的材料全都加上,也不可能拿一把青菜和米饭就下锅翻炒,如何选择食材,便是特征选择的领域。过滤式方法中,特征选择和模型训练是相互独立的,互不干扰;包裹式方法中,模型性能则是特征选择效果的参考,两者相互影响;除此之外,还有嵌入式的选择方法。数据处理和特征选择的效果,往往会决定模型性能的上限值。

5.实践过程

5.1场景分析

除了一些火烧眉毛的紧急事项外,对于工作中多数不那么紧迫的事情来说,可以给自己预留一个场景分析的过程。相当于在做一个事情之前,先跳出这个事情,思考其周边与其相互关联,可能决定其是否能成立的种种条件,然后再选择一头扎进这个场景之中。

在场景分析的过程中,要对细分的业务场景进行梳理,基于业务目标,评估机器学习建模的可行性和可复用性。如果业务目标清晰,机器学习的方式也合适的话,就去建模吧。

5.2数据准备

5.3模型开发

模型开发的工作,其实才是真正意义上属于生产的过程。首先需要了解所选算法的基本原理,从而展开后续的处理工作,比如通过特征工程把源数据转化为模型可读取的数据;通过成熟的机器学习平台或框架,进行模型训练和生成,并在投产前进行模型评估和验证。

5.4模型应用

模型生成之后,其实只是在技术意义上的生成,并非是业务意义上的可用。比如信用风险模型输出了一个概率,这个概率如何应用到不同的用户群体中,这里就需要结合一套具体的业务策略体系。模型的应用过程,便是在模型输出到业务输出之间的一道桥梁。

5.5模型部署

经过了评估和验收,如果模型性能达到了预期的效果,则可进入模型部署和任务调度的阶段。但模型的部署上线,并不是一劳永逸的事情,在投产之后,仍要进行跟踪和监控,比如模型性能的变化,覆盖人群的稳定性等,如果触发了变更条件,则要进行模型的优化工作。

THE END
1.中国教育监督网在沉浸式学习中普法,成都市关工委开展青少 教育三乱 更多>> 多名中小学校长被查!教育系统反腐受到关注 治理“三乱”,敲掉破坏营商环境的“拦路虎 隐性校园欺凌不可忽视,需始终加强防范 教育部:持续推进“四新”学科建设 近八成受访家长直言 “隐形变异”学科类校 http://zgjyjdw.cn/
2.监督学习下载app监督学习下载2024官方安卓版最新1.2版下载3、可以很好的提高用户们的专注力,提高自己的工作和学习效率。 监督学习更新日志: 日日夜夜的劳作只为你可以更快乐 嘛咪嘛咪哄~bug通通不见了! 华军小编推荐: 监督学习作为学习教育里面十分出色的软件,小编强力向您推荐,下载了就知道有多好。小编还为您准备了ABCmouse、作业帮直播课、作业帮在线拍照解题、研报客、驾http://www.onlinedown.net/soft/10111002.htm
3.怎么在互联网上匿名举报学校违法行为在网安界面找到并点击“网络违法犯罪举报”后的“申报”按钮,填写相关信息进行举报。 三、拨打投诉电话或写信举报 可以通过拨打当地教育局或相关政府部门的投诉电话进行举报。在电话中详细说明违法情况,并提供个人联系方式以便后续沟通。 还可以选择写信的方式进行举报,将信件寄送至相关教育部门或政府职能部门,并在信中详细https://agents.baidu.com/content/question/89446b0ae402f20eb386dac0
4.网络违法犯罪举报网站《网络违法犯罪举报网站》不具备现场、紧急报警的受理功能,如您的情况紧急,请立即拨打报警电话“110”。 我要举报 版权所有:公安部网络安全保卫局 京公网安备 11010102000001号京ICP备05070602号 建议您使用IE9及其以上版本,Edge、Chrome、FireFox和360等主流浏览器浏览本网站 https://cyberpolice.mps.gov.cn/wfjb/html/xxgg/20200825/4739.shtml
5.举报须知教育App是指以教职工、学生、家长为主要用户,以教育、学习为主要应用场景,服务于学校教学与管理、学生学习与生活以及家校互动等方面的互联网移动应用。 违法违规和违反政策文件的行为主要包括以下四类: (一)未获得备案或许可。 (二)存在互联网违法或不良信息。 https://app.eduyun.cn/bmp-web/rpt/rptReportGuide
6.机器学习——推荐系统和强化学习强化学习推荐系统3.3.3 学习状态值函数 3.3.4 算法改进:改进的神经网络架构 3.3.5 算法改进:E-贪婪策略(Epsilon-greedy策略) 3.3.6 算法改进:小批量和软更新 3.3.7 强化学习的状态 3.3.8 总结 第三课 第一周1.1 欢迎来到第三课_哔哩哔哩_bilibili (1)Unsupervised Learning:无监督学习 https://blog.csdn.net/qq_47941078/article/details/126216950
7.号称地表最强的神经机器翻译,为什么还是不尽如人意?用神经网络来进行机器翻译,首先解决的就是难以形成语句和必须依赖人工资料的问题。NMT的基本思想,是以每一个句子作为独立的神经元,从而打破基于短语的翻译障碍。并且翻译系统可以实现监督训练,不必完全依赖固定数据,这可以在专业领域等资料稀少的环节,获得更好的翻译结果 。 https://www.tmtpost.com/2785604.html
8.cvpr2021有的放矢,用图像分割与像素投票找在定义了真实地标分割图和真实方向投票图后,我们可以监督所提出的 VS-Net 预测这两个图。经过训练,VS-Net 可以预测查询图像的分割图和投票图,我们可以据此建立精确的二维到三维的对应关系,以实现稳健的视觉定位。 基于原型的在线学习三元监督投票分割网络: https://www.sensetime.com/cn/technology-new-detail/41164696?categoryId=48
9.2021届计算机科学方向毕业设计(论文)阶段性汇报针对图神经网络的两阶段式负载均衡策略 第一个阶段是在预训练阶段使用metis算法的多约束、层次化功能形成一个大概均衡的图划分;第二阶段是动态监控各设备的训练速度相应调整批次大小,是实时动态调整。 陆晗 面向时空预测网络的自监督持续学习方法 1.实现了持续学习的测试框架,并且验证了数据集KTH 和Moving-Mnist https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3943
10.全栈金融工程师算法技术解构数据降维 特征选择与稀疏学习 半监督学习 隐马尔科夫模型 规则学习 强化学习 5、机器学习Spark RDD弹性分布式数据集,记录被分配到一个集群的多个节点上。 推荐引擎:推荐引擎,是主动发现用户当前或潜在需求,并主动推送信息给用户的信息网络。挖掘用户的喜好和需求,主动向用户推荐其感兴趣或者需要的对象。 https://www.jianshu.com/p/6c3888c2e846
11.银行安全生产专项整治行动工作总结(通用13篇)严格落实有关网络安全方面的各项规定,采取了多种措施防范安全有关事件的发生,总体上看,我行网络安全工作做得比较扎实,效果也比较好,近年来未发现泄密问题。 一、计算机涉密信息管理情况 今年以来,我行加强组织领导,强化宣传教育,落实工作责任,加强日常监督检查,将涉密计算机管理抓在手上。对于计算机磁介质(软盘、U盘、https://www.oh100.com/a/202210/5387610.html
12.2020年学刊第1期派驻纪检监察组要充分发挥近距离、全天候、常态化的优势,必须始终坚守监督这个基本职责、第一职责,不断提升监督实效,发挥好“探头”作用,把派驻监督这一制度优势转化为工作优势,把“三不”一体化推进落到实处,推动驻在单位营造风清气正的政治生态和干事创业的良好氛围。为此,驻市卫健委纪检监察组学习和实践相结合,https://www.smxdx.cn/xk/6939.html
13.学习笔记:神经网络学习算法腾讯云开发者社区主流的神经网络学习算法(或者说学习方式)可分为三大类:有监督学习(SupervisedLearning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning),如下图所示。 注:有监督学习、无监督学习和强化学习并不是某一种特定的算法,而是一类算法的统称。 https://cloud.tencent.com/developer/article/1610502
14.详解基于图卷积的半监督学习(附代码)机器之心GCN可以找到标记的节点和没有标记的节点表示,并在训练中利用这两种信息来进行半监督学习。具体地,在半监督学习中,GCN通过聚合节点的标签和节点未标记的邻居来产生节点的特征表示。训练过程中,我们反向传播二进制交叉熵损失,以更新所有节点之间的共享权重。而这种损失取决于标记节点的特征表示,而该特征表示又取决于有https://www.jiqizhixin.com/articles/2019-03-07-10
15.头条文章对于表征学习,以双向生成式对抗网络(BiGAN)、深度聚集(DeepCluster)、逆约束自编码机插值(ACAI)和动量对比(MoCo)为代表的方法充分结合了深度神经网络强大的特征表示能力,利用无监督数据进行表征学习,为后续更复杂多样的监督学习任务打下了坚实的数据表征基础。https://card.weibo.com/article/m/show/id/2309404598738399395890
16.大学英语学习计划(精选17篇)新理念平台:任课教师可运用与课本配套的新理念平台布置各个单元的课文及生词预习、课后练习等相关学习计划,教师可在教学业务中的班级学习查看模块里查看并监督学生学习计划完成情况。 ⑵网络作业: 蓝鸽平台:任课教师可运用蓝鸽语言学科平台的作业系统模块布置《全新版大学英语综合教程1、2》教学单元的作业以及大学英语四级https://www.ruiwen.com/ziliao/english/4971798.html