各大公司广泛使用的在线学习算法FTRL详解EENovRain

本文主要会分三个部分介绍,如果对理论产生背景不感兴趣的话,可以直接看第3部分的工程实现(这一部分google13年那篇工程化的paper介绍得很详细):

【问题描述】

对于loss函数+正则化的结构风险最小化的优化问题(逻辑回归也是这种形式)有两种等价的描述形式,以1范数为例,分别是:

a、无约束优化形式的softregularizationformulation:

b、带约束项的凸优化问题convexconstraintformulation:

【批量(batch)算法】

批量算法中每次迭代对全体训练数据集进行计算(例如计算全局梯度),优点是精度和收敛还可以,缺点是无法有效处理大数据集(此时全局梯度计算代价太大),且没法应用于数据流做在线学习。这里分无约束优化形式和约束优化(与上面问题描述可以对应起来)两方面简单介绍一下一些传统批量算法。

b、不等式约束凸优化形式:1、传统的不等式约束优化算法内点法等;2、投影梯度下降(约束优化表示下),gt是subgradient,直观含义是每步迭代后,迭代结果可能位于约束集合之外,然后取该迭代结果在约束凸集合上的投影作为新的迭代结果(第二个公式中那个符号标识向X的投影):

【在线算法】

如上所述,批量算法有自身的局限性,而在线学习算法的特点是:每来一个训练样本,就用该样本产生的loss和梯度对模型迭代一次,一个一个数据地进行训练,因此可以处理大数据量训练和在线训练。常用的有在线梯度下降(OGD)和随机梯度下降(SGD)等,本质思想是对上面【问题描述】中的未加和的单个数据的loss函数L(w,zi)做梯度下降,因为每一步的方向并不是全局最优的,所以整体呈现出来的会是一个看似随机的下降路线。典型迭代公式如下:

这里使用混合正则化项:,例如可能是1范数与2范数强凸项的混合(后面会看到其实很多都是这种混合正则化的格式,而且是有一定直观含义的)。迭代公式中:gt是loss函数(单点的loss,未加和)的subgradient,与gt相加的那一项是混合正则化项中的第二项的梯度,投影集合C是约束空间(例如可能是1范数的约束空间),跟上面介绍的投影梯度下降类似的做法。

1、简单的在线梯度下降很难产生真正稀疏的解,稀疏性在机器学习中是很看重的事情,尤其我们做工程应用,稀疏的特征会大大减少predict时的内存和复杂度。这一点其实很容易理解,说白了,即便加入L1范数(L1范数能引入稀疏解的简单示例可以产看PRML那本书的第二章,我前面一篇blog的ppt里也大概提了),因为是浮点运算,训练出的w向量也很难出现绝对的零。到这里,大家可能会想说,那还不容易,当计算出的w对应维度的值很小时,我们就强制置为零不就稀疏了么。对的,其实不少人就是这么做的,后面的TruncatedGradient和FOBOS都是类似思想的应用;

2、对于不可微点的迭代会存在一些问题,具体有什么问题,有一篇paper是这么说的:theiteratesofthesubgradientmethodareveryrarelyatthepointsofnon-differentiability。我前后看了半天也没看明白,有熟悉的同学可以指导一下。

二、TruncatedGradient、FOBOS以及RDA(RegularizedDualAveraging)

上面提到了,稀疏性在机器学习中是很重要的一件事情,下面给出常见的三种做稀疏解的途径:

1)、简单加入L1范数

下面会提一下FOBOS(Forward-BackwardSplittingmethod,其实应该叫FOBAS的,历史原因)以及RDA,因为后面的FTRL其实相当于综合了这两种算法的优点:

a、FOBOS,google和伯克利09年的工作:

b、RDA(Regularizeddualaveraging),微软10年的工作,更加理论性一些,这里就直接略过去了,仅对其特点做一个简单介绍:

ok,背景和一些铺垫终于完成了,下面重点进入FTRL的部分。。。

三、FTRL(Follow-the-regularized-Leader)

【发展历程】

FTRL的理论推进和工程应用首先要感谢这个人:H.BrendanMcMahan,google这哥们儿护了三年的坑,直到13年工程性paper出来。发展历程和基本说明如下:

–10年理论性paper,但未显式地支持正则化项迭代;11年证明regretbound以及引入通用的正则化项;11年另一篇的paper揭示OGD、FOBOS、RDA等算法与FTRL关系;13年的paper给出了工程性实现,并且附带了详细的伪代码,开始被大规模应用。

1)PoissonInclusion:对某一维度特征所来的训练样本,以p的概率接受并更新模型;

2.浮点数重新编码

[1]J.Langford,L.Li,andT.Zhang.Sparseonlinelearningviatruncatedgradient.JMLR,10,2009.(截断梯度的paper)

[2]H.B.McMahan.Follow-the-regularized-leaderandmirrordescent:EquivalencetheoremsandL1regularization.InAISTATS,2011(FOBOS、RDA、FTRL等各种方法对比的paper)

[3]L.Xiao.Dualaveragingmethodforregularizedstochasticlearningandonlineoptimization.InNIPS,2009(RDA方法)

[4]J.DuchiandY.Singer.Efficientlearningusingforward-backwardsplitting.InAdvancesinNeuralInformationProcessingSystems22,pages495{503.2009.(FOBOS方法)

[5]H.BrendanMcMahan,GaryHolt,D.Sculley,MichaelYoung,DietmarEbner,JulianGrady,LanNie,ToddPhillips,EugeneDavydov,DanielGolovin,SharatChikkerur,DanLiu,MartinWattenberg,ArnarMarHrafnkelsson,TomBoulos,JeremyKubica,AdClickPrediction:aViewfromtheTrenches,Proceedingsofthe19thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD)(2013)(这篇是那篇工程性的paper)

[6]H.BrendanMcMahan.Auniedanalysisofregular-izeddualaveragingandcompositemirrordescentwithimplicitupdates.Submitted,2011(FTRL理论发展,regretbound和加入通用正则化项)

[7]H.BrendanMcMahanandMatthewStreeter.Adap-tiveboundoptimizationforonlineconvexoptimiza-tion.InCOLT,2010(开始的那篇理论性paper)

THE END
1.机器学习:算法分类自然语言处理属于机器学习的哪类算法机器学习算法可以根据不同的标准进行分类,主要包括按学习方式、任务类型和应用领域等。以下是一些常见的分类方式: 1. 按学习方式分类 1.1 监督学习 (Supervised Learning) 定义:使用已标记的数据进行训练,每个输入数据都有对应的输出标签。模型学习输入与输出之间的映射关系。 https://blog.csdn.net/Wei_sx/article/details/144310042
2.太全了从入门到精通一口气学完回归算法聚类算法决策树随机随机森林是由多个决策树组成的模型,它能够处理高维数据,并提高预测的准确性。神经网络则是模仿人脑结构的算法,它们能够处理复杂的非线性关系。贝叶斯算法基于概率论,提供了一种解释性更强的模型。 最后,支持向量机是一种专门用于二分类问题的算法,它在处理小样本问题时表现出色。这十大算法各有千秋,通过学习它们,我们https://www.94cto.com/search/content/id/34247
3.人工智能基础知识速成机器学习和深度学习作为人工智能技术的重要分支,已经在各个领域展现出了巨大的潜力和价值。随着数据量的不断增加和算法的不断改进,相信机器学习和深度学习在未来会有更广泛和更深远的应用。希望通过本文的介绍,读者能对机器学习和深度学习有一个更全面和深入的理解。https://www.jianshu.com/p/131df4472d07
4.人工智能的算法:定义应用与常见类型随着科技的快速发展,人工智能(AI)已经成为我们生活中不可或缺的一部分。然而,很多人对AI的工作原理并不十分了解。那么,什么是人工智能的算法呢?它又有哪些常见的应用呢?让我们一起来探讨一下。一、人工智能算法的定义 简单来说,人工智能的算法是一种用于模拟人类智能行为的数学模型。这些算法通过处理和分析https://baijiahao.baidu.com/s?id=1792293245254107147&wfr=spider&for=pc
5.美国留学gpa算法标准有哪些美国留学同学们您是否也想知道美国留学gpa算法标准有哪些,这个问题的分析和解答呢?相信你通过以下的文章内容就会有更深入的了解,话不多说,接下来就跟着中国教育在线小编一起看看吧。 (1)未加权算法: 由于不同高中有不同的GPA计分方式,如4分制、5分制、6分制、百分制、等级制等,对此,美国大学理事会College Board曾发布https://www.eol.cn/liuxue/wenda/mg20231026282207.html
6.机器学习召回率计算常见的召回算法有哪些机器学习召回率计算 常见的召回算法有哪些 本文是对七月在线课程召回算法进阶的一个简单笔记记录。 本笔记主要围绕课上所讲常见召回方式、协同过滤、关联商品召回、基于图的Swing召回算法、Embedding召回(item2vec|node2vec)、YutubeDNN 、动态多兴趣挖掘模型MIND、多路召回融合。https://blog.51cto.com/u_16213680/10407033
7.西安退休金的算法是怎么样的,有哪些新规定(二)达到法定退休年龄;(三)累计缴纳基本养老保险费满十五年。二、西安退休金的算法:达到法定退休年龄,https://www.64365.com/ask/3461603.aspx
8.C#刷遍Leetcode面试题系列连载(1)入门与工具简介刷LeetCode有哪些好处? 计算机中有很多抽象的数据结构,比如: List、Stack(栈)、Linked List(链表)、Hash Table(哈希表)、Heap(堆)、Tree等等,而LeetCode 上的大量高质量算法题基本上涵盖了所有这些数据结构的应用。怎么将这些题抽象成数学模型,转化为具体数据结构的应用,则是我们需要提升的地方,而这恰恰帮我们极大https://www.shangyexinzhi.com/article/details/id-258758
9.ai绘画生成器在线网站有哪些ai绘画生成器在线网站推荐ai绘画生成器在线网站有哪些,人工智能绘画的优势在于它可以快速地创作出大量的艺术作品,为艺术家提供更多的灵感、创意和想法。利用机器学习算法,AI能够从大量的图像数据中学习,不断优化自己的绘画技能和艺术创造力,帮助创作者实现更多的想法和梦想。此外,人工智能绘画还可以为艺术品的保护、修复和数字化保存提供更好的方https://www.dadighost.com/help/58227.html
10.大白大白算法在线测试(综合)登录入口APP下载IOS/安卓通用版/? 2024年11月09日 14:07:03?HOT?【大白大白算法在线测试免登陆版】支持:64/128bit系统类型:大白大白算法在线测试(综合)登录入口APP下载IOS/安卓通用版/手机APP下载v61.5.38(安全平台)官方入口为用户提供腾讯软件下载推荐、腾讯软件有哪些,下载腾讯软件地址、腾讯游戏软件、腾讯社https://www.shiwaiyun.com/article/post/182193.html
11.喻玲:算法消费者价格歧视反垄断法属性的误读及辨明而痛打大数据“杀熟”、叫停算法歧视一时被炒作得甚嚣尘上,确有专家支持和研究支撑,并非空穴来风,这些研究侧重于对ACPD行为公平性的讨论,回应了“公众叫停该行为”的现实需求。然而细观研究内容:一则仅以在线零售市场为研究对象,未全面分析定价算法在不同场景的竞争效果;二则仅以消费者剩余为考量因素推导出“总体https://lawscience.ecupl.edu.cn/2020/0930/c1779a171695/page.htm
12.有哪些常见的图片格式?图片格式详细介绍及图片格式转换方法数字图像处理是指通过离线或在线资源(如编辑软件和网络应用程序)来处理图像。而图片格式转换过程旨在提高图片质量或借助算法从图片中提取更多的有效信息。本文将详细介绍常见的图片格式、各自的使用场合以及图片格式转换方法。 常见的图片格式类型 图片格式的选择多种多样,不同的图片格式都是为不同的特定场景而开发出来的https://www.digitaling.com/articles/834637.html
13.多台平行批处理机在线排序和带有运输时间的在线排序具体地,本论文主要结果如下: 1.在第二章中,我们考虑了m台批无界平行分批处理机在线排序问题。目标函数是最小化最大完工时间。我们证明了该问题所有在线算法的竞争比的下界是1+α_m,其中,α_m是方程α_m~2+mα_m-1=0的正根,并且给出了一个最好可能的在线算法。同时,我们还考虑了此问题的稠密算法:证明https://wap.cnki.net/touch/web/Dissertation/Article/-2010043431.html
14.在对齐AI时,为什么在线方法总是优于离线方法?澎湃号·湃客假设1:数据覆盖情况。在线算法更优的原因是其覆盖的数据比离线数据集更多样化(即随时间变化采样自不同的学习器策略)。 假设2:次优的离线数据集。离线算法处于劣势,因为其初始的偏好数据集是由一个次优的策略生成的。如果使用有更高绝对质量的响应训练离线算法,则性能会更好。 https://www.thepaper.cn/newsDetail_forward_27434433
15.双向板的计算方法选手册算法可行?yjk提供的三种算法有何差异双向板的计算方法选手册算法可行?yjk提供的三种算法有何差异? 0人已收藏 0人已打赏 免费 0人已点赞 分享 举报 全部回复(1 ) 只看楼主 我来说两句 抢板凳 大猫go 沙发 手册算法是指按建筑结构静力计算手册中板的弹性薄板算法;塑性计算方法是按照建筑结构静力计算手册中板的极限平衡法计算四边支承板;有限https://bbs.co188.com/thread-10190043-1-1.html
16.SHA256SHA512SHA3RIPEMD哈希加密算法介绍 在线哈希Hash加密算法提供MD5加密、SHA-1加密、SHA-2加密、SHA-256加密、SHA-512加密、SHA-3加密、RIPEMD-160加密等各种在线加密工具。 MD5哈希加密算法 MD5即Message-Digest Algorithm 5(信息-摘要算法 5),用于确保信息传输完整一致。是计算机广泛使用的散列算法之一(又译摘要算法、哈希算法),主流编https://tool.ip138.com/hash/