凸在线学习:理论与实践木言成反

这篇博客主体内容已经写完,还有些细枝末节之后再做补充。

本文将会聚焦在线学习中极为重要的一类,凸在线学习(OnlineConvexLearning),从理论上解读并理解在线学习模型,探究当前工业界应用最广的FTRL-Proximal方法的演变过程,为之后的代码实现和方法应用铺平道路。

接下来,我们仔细谈谈凸在线学习里面的各种低Regret算法,在这里我们主要谈一阶方法,比如镜面下降(MirrorDescent)以及FTRL(FollowtheRegularizedLeader),这两大类的本质是相同的,只是看待问题角度不同,这一点在之后会谈到。

在正式开始讨论之前,我们首先要定义几个符号。\(w_t\)是\(t\)时刻的参数,\(f_t(w_t)\)是\(t\)时刻的损失函数,\(S\)是参数所在的凸集,\(\alpha\)是学习率,\(\nablaf_t\)是梯度,\(\partialf_t\)是次梯度。

如何进行在线学习?最容易想到的方法就是最小化累积损失,也就是FTL(FollowtheLeader),其形式如下:

在2.1节我们谈到了能最小化累计损失不能说明此算法在在线学习场景是有效,我们需要探究算法的Regretbound。

对任意的\(u\inS\),都有

通过归纳法可以很容易证明以上定理,但是这个上界在\(w_t\)不停上下震荡(比如在1和-1循环取值)的时候是会达到\(O(T)\),不满足次线性。事实上FTL在损失函数强凸的情形下是满足Regret次线性的,但在一般凸函数情形下不满足。我们可以在FTL基础上加上正则项\(R(w)\)使得算法变得“平稳”一些。这就是FTRL(FollowtheRegularizedLeader)。注意,FTRL里的正则项和所谓的稀疏性并没有联系,只是为了让算法更稳定从而满足次线性。其形式如下:

正则项可以有多种不同的选择。首先我们讨论线性损失函数加上\(L_2\)正则项的情形。为方便起见,定义\(z_t=\partialf_t(w_t)\)。

损失函数为\(f_t(w)=\left\),正则项为\(R(w)=\frac{1}{2\eta}||w||_2^2\),其中\(\eta\)是某个常数,代入FTRL更新式很容易验证:

这就是在线梯度下降(OnlineGradientDescent(OGD)),OGD是FTRL当损失函数为线性以及正则项为\(L_2\)的特殊形式,它的Regretbound可以被证明是\(O(\sqrtT)\),这里就不展开了,这能够说明OGD在在线学习场景中是有理论来保障其性能的。我们还能延扩到其它凸损失函数领域而不只是局限于线性函数,利用凸函数定义可得,

可以看到线性函数的Regret构成了凸函数的上界,所以我们只需要针对线性函数即可,能够证明凸损失函数函数加上\(L_2\)正则项的Regretbound在满足一定条件下是\(O(\sqrtT)\)的,同时延拓到其它强凸的正则项\(R(w)\)也是可行的。此时我们可以得到FTRL的通式:

在每回合,FTRL都需要求解一个优化问题,在线镜面下降(OnlineMirrorDescent(OMD))可以简化FTRL,同时其Regretbound和FTRL是一致的。OMD和线性损失函数加正则项的FTRL是等价的,下面我们来推导一下。为了方便起见,定义\(z_{1:t}=\sum\limits_{i=1}^tz_i\)。

定义连接函数\(g(\theta)=\arg\max_w\left-R(w)\)(注意连接函数可以是已定义的函数,此时OMD就不需要每回合求解一个优化问题)此时FTRL的更新式就变成了以下形式:

OMD的更新形式很像是OGD,事实上,OGD正是OMD最简单的形式。当\(g(\theta)=\eta\theta\),\(\eta>0\)以及\(S\inR^d\),很容易能看出OMD就是OGD。当\(g\)函数是一般的非线性函数时,\(w_{t+1}\)是通过连接函数\(g\)将\(\theta_{t+1}\)“映射”(mirror)到\(S\)集合中得到的。这就是OMD名字的由来。

OMD是一个大家族,包含了各种梯度下降式算法,我们首先从OGD看起,OGD形式如下:

我们在此讨论离线形式的随机梯度下降(SGD),即每次输入一个样本对参数进行更新,其本质和OGD是一致的。顺便说一句,SGD有一个别称叫增量梯度下降IGD(IncrementalGraidentDescent),其对应了增量学习(IncrementalLearning),具体不展开了,想了解可以自行查阅资料。SGD有一个很大的缺陷,即要求目标函数必须是光滑的,这一点在现实中较难满足,因为通常为了达到稀疏性我们要考虑正则项,\(L_1\)正则在\(0\)点是不可微的。因此需要对SGD作出一点改进,将梯度改成次梯度,次梯度的定义为\(\partialf=\{u\midf(y)\geqf(x)+u^T(y-x)\}\),此时\(L_1\)正则在\(0\)点的次梯度为\(\left[-1,1\right]\)中元素。

梯度下降转化为了次梯度下降(SubgradientDescent(SubGD)),形式如下:

次梯度下降从理论上解决了非光滑损失函数这一类问题,但是其收敛速度较慢,只有\(O(1/\sqrtt)\),梯度下降的收敛速度为\(O(1/t)\)。究其原因,由于损失函数非光滑,导致次梯度值会出现急剧变化,比如从-1跳到了1,尽管\(w_t\)和\(w_{t+1}\)是很接近的,这就导致了收敛速度减慢。为了解决这种问题,我们可以采取“作弊”的方式,用\(t+1\)时刻的次梯度去更新得到\(w_{t+1}\),这就是后向次梯度下降。这个问题第一眼看是没法解的,我们得不到\(w_{t+1}\)的更新式,不过我们可以利用Fermat引理来求解。

为方便起见,引入邻近算子(proximaloperator)概念:

这时后向次梯度下降的形式为:

在实际的大量凸优化问题中,损失函数本身可能是凸光滑的,所带的正则项是非光滑的,问题转化为最小化\(f(w)+\lambda\Psi(w)\),\(\Psi(w)\)是非光滑的正则项。这时为了适应特定问题场景,后向次梯度下降转化为了前向后向分割(FOBOS),FOBOS的全称是Forward-BackwardSplitting,之所以不叫FOBAS是为了和之前的FOLOSForward-LookingSubgradients保持一致,避免引起读者的误解。

FOBOS分为两步进行,对于光滑项梯度下降,对于非光滑项后向次梯度下降。具体形式如下:

统一起来,其形式为

因此FOBOS又可以被叫做邻近梯度下降(ProximalGradientDescent(PGD))

以上导出FOBOS的过程看上去很直观,但实际上缺乏一些理论依据。接下来我们从理论角度重新推导FOBOS。

首先,对于损失函数,我们采用二阶近似来逼近,用\(\frac{1}{\eta}I\)代替\(\nabla^2f\)。

这就是FOBOS的最终形式。

看上去FOBOS是比梯度下降复杂多了,实际上不然,在很多场景下邻近算子是非常容易求得的,比如LASSO。当正则项为\(L_1\)的时候,我们把它的邻近算子称为软阙值算子\(T_\alpha\)(soft-thresholdingoperator),其形式为:

以上,我们都是在讨论线下场景的凸优化,凸在线学习本质上和线下凸优化是一致的,不过也有一些不同。以梯度下降为例,在线学习中梯度下降的形式为在线梯度下降(OGD),OGD和SGD本质上是相同的,即每次使用一个样本的梯度下降。但是两者应用的场景不同,OGD适用于线上情景,损失依次到来,其Regretbound\(\alpha-\)能达到\(O(\sqrt(T))\),Regret次线性增长能够证明OGD是适用于在线学习场景的。另外虽然SGD形式和OGD一致,但两者思路还是有区别,SGD的梯度是靠样本去估计的,而OGD则是直接进行处理。FOBOS的在线版本也是同理,Regretbound在损失函数\(\alpha-\)强凸情况下能达到\(O(log(T))\)。

SubGD还有一个问题,在于新的次梯度的权重比老次梯度要低。具体的推导如下:

考虑二阶近似,令\(Z_t=\sum\limits_{i=1}^t\eta_i\),\(g_t=\partialf(w_t)\)

可以看出,老的次梯度相比新的次梯度有更高的权重,这显然不合理。对偶平均(DualAveraging)通过赋予所有次梯度同等权重,解决了SubGD这种缺陷。

定义\(\hatg_t=\frac{1}{t}\sum\limits_{i=1}^tg_i\),

其中\(\mu_t\)是步长。

SubGD的在线版本还有一个额外的缺陷,即无法得到稀疏解,于是微软提出了正则对偶平均(RegularizedDualAveraging(RDA)),能得到比FOBOS更稀疏的解。相比于DA,RDA增加了一个正则项\(\Psi\),用一个强凸函数\(h\)替代了原先的二阶范数,其形式如下:

由于是在线算法,因此出于运行效率的考量,通常选取简单形式的\(h\)和\(\Psi\),比如二阶范数和\(L_1\)正则项,令\(\mu_t=\gamma\sqrtt\)。接下来,我们就来求解这种简单形式的RDA:

将其右式分成\(n\)个独立式分别求解,令\(\gamma_t=\frac{\gamma}{\sqrtt}\),这就转化为了:

求导之后可得,

其中\(w^*\)是最优解,\(\delta\in\partial\vertw\vert\),之后根据\(\delta\)的取值分情况讨论,最终可以得到RDA的闭式解,

现在我们有了两个SubGD加强版算法,FOBOS以及RDA。FOBOS相比RDA能够达到更高的精度,而RDA能够得到更稀疏解,Google融合两者各取所长提出了如今在工业界中应用甚广的FTRLProximal。

为了看得更清楚一些,我们把FOBOS和RDA写成相似的形式(推导过程不严格):

在这里\(Q\)是学习率,\(g_t\)是损失函数的梯度,\(g_{1:t}=\sum_{i=1}^tg_i\)。从以上可以看出,更新式分为三项,第一项是损失函数的一阶近似,第二项是非光滑正则项,此处为\(L_1\)正则,第三项为强凸正则项,此处为\(L_2\)正则。

从通式上我们能看出FOBOS和RDA总共有三点不同:

事实上,Google在论文中证明了一个等价定理,即OMD和FTLR等价。如此一来FOBOS的更新式能够等价地写成:

此处\(\phi\)是\(L_1\)正则的次梯度。这个更新式和RDA就更像了。FOBOS的优化是针对基于次梯度估计的累积\(L_1\)正则,经实验验证正是因为次梯度估计的存在才导致了FOBOS的稀疏性不如RDA来得好。FOBOS的强凸项中心化点为当前的点而非原点,这个好处是更新后我们不会在预测我们已经见过的样本时有太多偏差,这就是所谓的Proximal名字的来历。

FTRLProximal在处理稀疏性上和RDA一致,处理中心化点上和FOBOS一致,如此一来既达到了更好的稀疏性又提升了精确度,其形式如下:

注意\(L_1\)正则前并没有\(t\)。【3】和【4】中FTRL-Proximal公式在这一点上是不同的,不过都是\(\alpha_t\)的特殊形式,一个是\(\alpha_t=1\),一个是\(\alpha_t=t\)。我特地发邮件问了作者BrendanMcMahan,他的回复是在实践中固定的\(\lambda_1\)经常makesthemostsense。

看上去这个优化问题有点复杂,但实质上这和\(RDA\)的求解是非常相似的。定义\(z_t=g_{1:t}-\sum\limits_{i=1}^t\sigma_iw_i\),其中\(\sigma_{1:t}=\frac{1}{\eta_t}\)。如此一来,优化式就转化为:

这个形式和上面的RDA是一模一样的,求解完全相同。最终结果是:

FTRL-Proximal的伪代码如下:

最后,我们对上面讲过的内容做一下总结归纳。

在线学习是一种强大的线上模型训练方法,一个低Regret算法能够保证其平均表现和最优决策的平均表现是相当的,我们着重介绍了在线学习中的一大类,一阶凸在线学习,其代表算法是FTRL。FTRL通过最小化累计损失来更新参数,加上了正则项来使算法平稳。通过选取不同的损失函数和正则项,FTRL可以转化为多种形式,比如OGD。

OMD也是一种代表算法,它与FTRL本质相同,由于其梯度特性被认为是梯度下降类算法的通式。OGD是OMD最简单的形式,它一种高效简洁的在线学习方法,在不少问题上能以很小的计算消耗达到不错的精度,但其有两大缺陷,一是稀疏性不够,即使加上了正则项也会因为浮点数相加而很难得到精确零值。这时可以采用截断法,比较流行的有TruncatedGradient以及FOBOS。二是不能处理非光滑函数,这时就需要用次梯度代替梯度,即SubGD。SubGD虽然能处理非光滑,但收敛速度慢,FOBOS通过向前看一步,有效提升了收敛速度。而且在加上正则项后通过软阙值截断,能达到较好的稀疏性。RDA也是SubGD的加强版,相比FOBOS能达到更好的稀疏性,不过由于其中心化点是原点,可能会在预测我们已经见过的样本时有一定偏差。

虽然我们在上面没有提,不过从FTRL通式和RDA通式能看出两者的相似性,RDA实质上是FTRL家庭中的一员。当我们融合RDA和FOBOS,将FTRL和OMD相联结,我们就得到了FTRL-Proximal,既能达到较高的预测精度,又能达到较好的稀疏性。

还有几点零碎的我想说的,一并写在这里。

【1】IntroductiontoOnlineConvexOptimization.EladHazan.PrincetonUniversity.2016.

【2】OnlineLearningandOnlineConvexOptimization.ShaiShalev-Shwartz.2011.

【3】AdClickPrediction:aViewfromtheTrenches.H.BrendanMcMahanet.al.Google.2013.

【4】Follow-the-Regularized-LeaderandMirrorDescent:EquivalenceTheoremsandL1Regularization.H.BrendanMcMahan.Google.2011

【5】EfficientOnlineandBatchLearningUsingForwardBackwardSplitting.JohnDuchiet.al.2009.

【6】AdaptiveSubgradientMethodsforOnlineLearningandStochasticOptimization.JohnDuchiet.al.2011.

【7】DualAveragingMethodsforRegularizedStochasticLearningandOnlineOptimization.LinXiao.Microsoft.2010.

【8】AUnifiedViewofRegularizedDualAveragingandMirrorDescentwithImplicitUpdates.H.BrendanMcMahan.Google.2011

【9】OptimizationandMatrixComputationcoursebyJianfengCai.HongKongUniversityofScienceandTechnology.2017.

【10】OptimizationcoursebyGeoffGordon.CarnegieMellonUniversity.2012.

【11】IntroductiontoOnlineLearningcoursebyHaipengLuo.UniversityofSouthernCalifornia.2017.

【12】Normalizedonlinelearning.StephaneRosset.al.2013

【13】ASurveyofAlgorithmsandAnalysisforAdaptiveOnlineLearning.H.BrendanMcMahan.2017

【14】IntroductiontoOnlineLearningTheory.WojciechKotlowski.InstituteofComputingScience,Pozna′nUniversityofTechnology.2013

【15】Wikipedia,Quora,StackOverflow,CrossValidated,Zhihu

THE END
1.十大学习网站排名网上学习平台哪个好在线网络学习网站推荐→近年来,网络学习环境在网络接入性、学习支持服务方面表现优异,整体发展水平得到质的提升,已成为流行趋势。本文中maigoo网编辑为广大学子盘点了中国大学MOOC、Coursera、慕课网、网易公开课、EdX、学堂在线、TED、大学资源网、腾讯课堂等较受欢迎的网络学习平台,一起了解下这些学习网站的优势! 排排榜 关注榜 点赞榜 https://www.maigoo.com/top/420080.html
2.网上学习指南网上学习时间主要集中在:上半年3月至6月、下半年9月至12月。 三、自学内容 1.课程视频:合理安排自己的学习进度,点播并自学课程视频内容。2.答疑讨论:通过网上课程论坛参与学习讨论。 3.作业:根据学校进度要求,学生按时完成在线作业或线下作业。 四、考核: http://www.jxjy.ldu.edu.cn/xljy/wsxxzn.htm
3.常州市实验初级中学居家期间学生线上学习和降生活指导方案三(3为落实“双减”、“五项管理”,在线下复课之前,学校仍利用线上平台,提供每日教学资源,并将增加线上答疑和直播课堂频次,加大师生互动性。教学内容包括学科教学、体艺教育、劳动教育及德育课程、防疫知识、心里健康辅导等。希望在第三轮线上学习期间,家长能继续指导孩子养成良好作息时间,督促孩子控制电子产品使用时间,注重http://www.sycz.czedu.cn/html/article5335150.html
4.线上学习的利与弊2、在线学习,容易养成一些坏习惯。接触过的家长,没有不为孩子沉溺于手机(平板)而苦脑的,https://iask.sina.com.cn/jx/sh/160369102743935032781.html
5.复工复产致西湖区技能人才利用线上平台学习技能的倡议书目前,“在家学技能”各平台均免费提供职业技能相关的各类在线课程视频及相关服务,充分体现公益性优先的理念。后续还将联手“工业和信息化技术技能人才网上学习平台”“中国职业培训在线”“中国国家人事人才培训网”等平台推出更多可供学习的课程,对提升职业技能和创业能力有很大帮助,是理想的选择。 https://www.thepaper.cn/newsDetail_forward_6155498
6.网课上网线上学习图片网课上网线上学习素材视觉中国为您找到29854个原创网课上网线上学习素材图片,包括网课上网线上学习图片,网课上网线上学习插画,网课上网线上学习模板,网课上网线上学习元素,网课上网线上学习图标等源文件下载服务,包含PSD、PNG、JPG、AI、CDR等格式素材,更多关于网课上网线上学习素材、图https://www.vcg.com/creative-image/537010741
7.工商管理学习心得体会6篇除了学校安排的`必要的面授课程外,其他的学习时间也是我们应该利用、重视的、以前的我们,都是老师在台上讲,学生在台下听,学生比较被动,这样的学习比较死板,而网上学习去也此有着本质不同。我们可以随意安排自己时间,可以利用我们认为最好的学习时间来学习,而且网上的资源众多。比如:在线学习、交流园地、难题答疑等,利https://www.unjs.com/fanwenwang/xdth/20230113170012_6262736.html
8.人员专业职务申报资格考试网上报名及学习有关事项的通知》的通知为做好全市2020年度企(事)业思想政治工作人员专业职务申报资格考试准备工作,现将《2020年度山东省企(事)业政工人员专业职务申报资格考试网上报名及学习有关事项的通知》转发你们,请按照通知要求,组织做好本地本单位符合条件政工人员专业职务申报资格考试网上报名、学习等相关工作。 https://gxq.taian.gov.cn/art/2020/4/16/art_47833_9013696.html
9.在线学习从知识分享走向能力提升当前,中小学生在线学习平台从所呈现的内容来看主要分为两大类:基础性课程讲解类的,如各地教育行政部门建设的学科微课网;拓展性课程讲解类的,如上海市高中名校慕课平台;其他诸如语言学习类以及作业辅导类的,基本上也无外乎上述两大类型,均是以学科知识的讲解与拓展即知识的分享为主。 http://www.jyb.cn/rmtzgjyb/202004/t20200402_313357.html
10.在线学习素材在线学习图片在线学习素材图片下载觅知网为您找到1019个原创在线学习素材图片,包括在线学习图片,在线学习素材,在线学习海报,在线学习背景,在线学习模板源文件下载服务,包含PSD、PNG、JPG、AI、CDR等格式素材,更多关于在线学习素材、图片、海报、背景、插画、配图、矢量、UI、PS、免抠,模板、艺术字、https://www.51miz.com/so-sucai/203354.html
11.在线学习考试系统,学校考试练习软件,企业员工培训系统软件沃迩夫开发的线学习考试系统之“小鱼智能学习系统”是杭州沃迩夫信息科技有限公司面向各企、事业单位和各大、高职院校及培训机构推出的网上学习、练习、考试软件。是以在线学习、题库练习、在线考试、课堂测试为核心功能的智能学习系统。目前已成功运用于多家政府单位以及杭州的几家高校,也得到了充分肯定。 https://www.hzwolf.com/construction/zxks.html
12.线上教学计划模板学生在家学习的情况不同,老师知道学生知道什么,不知道什么,学生想知道什么,知道什么,学生在网上学习的困难,重要的问题是什么,为什么有这些问题等,和学生一起找到他的短板。同时,复习学生在线学习的内容,引导学生利用思维导图总结和整合学习的知识。 四、合理控制教学容量 https://www.fwsir.com/jy/html/jy_20210722124946_1213327.html
13.西山区“线上+线下”“个人学+集体学”推动党史学习教育深入开展近段时间,昆明市西山区纪委监委把党史学习教育作为重大政治任务,通过“线上+线下”结合、“个人学+集体学”衔接方式开展党史学习教育。 西山区纪委监委充分利用新媒体优势,在“清廉西山”微信公众号实时推送系列学习文章,组织纪检监察干部参与网上百年党史答题活动,运用云南干部在线学习学院、云岭先锋App、“学习强国”昆https://zswldj.1237125.cn/html/km/sjjggw/2021/4/2/61ba417e-e62d-4d39-9a32-3b1e8243fbfb.html
14.西班牙语在线学习网上学西班牙语西班牙语网课赛乐西语网西班牙网络在线直播专题,为您介绍西班牙在线教学优势、西班牙语网课直播教学条件、网上学习西班牙语外教师资等信息。http://www.sailexy.com/zt/2019xyzb/
15.线上课后服务方案范文(精选13篇)1.要求各年级组、各学科,结合自己负责的学科和班内实际情况制定具体网络教学复习计划(3月XX日至X月XX日),让学生在家里执行一定的学习作息时间,组织好学生在家期间的学习生活,并做好检查指导。老师根据实际情况,为学生提供网上学习资源及线上辅导。 2.学习时间: https://www.ruiwen.com/fangan/6694425.html