效果广告点击率预估实践:在线学习止战

上述局限性已经严重制约了点击率预估模型的进一步优化,要求我们在技术上做出突破。

近年来离线大规模机器学习技术在大模型训练方面进展颇多。出现了像DistBelief[2]和Petuum[3]这样的系统和平台,支持超大规模训练数据集和超大模型训练,它们部分地解决了上面提到的一些局限性。但是从使用角度来看,它们毕竟还都是离线训练,如何在数据量持续增加的情况下做到快速乃至实时的模型更新,这并非它们的首要技术目标,因此也就无法完全解决我们面对的挑战。

思虑至此,我们很自然地就会选择走另一个方向——在线学习(onlinelearning)。实际上,正如[1]末尾提到的那样,我们在研发上一代方案之初便认识到,线上模型更新(onlinemodelupdate)是未来很有前途的模型快速更新方案,这方面的尝试我们也一直在做,并在15年成功应用于线上生产系统,带来了显著的效果提升。

在线学习并不是一个新概念,相对于有限的存储和计算资源来说,数据量太大的问题其实一直都存在,人们很早就在思考在线算法(OnlineAlgorithms)和机器学习的结合[4],也就是在线学习。同传统的离线批处理式的机器学习相比,在线学习的最大特点在于数据的到来和用于模型训练都是在线进行的,模型训练程序无法一次性拿到和存储所有的训练数据,对训练数据的访问只能是顺序的。因此,在线训练是一种流水线的处理方式,也就无需使用巨大的存储空间,而且计算的延迟和通信的延迟可以彼此有效的掩盖,天生具有良好的伸缩性,可以支持超大的数据量和模型。从某种意义上来说,如果我们可以用在线学习的方法来解一个机器学习问题,我们就大大抬高了处理问题规模的天花板,而这种天花板的升高带来的好处是显而易见的。

图1在线学习技术方案架构简图

读到这里,其实在线学习的整个方案架构已经比较明确了,如图1所示,类似的图很多见[5]。流式训练数据生成的环节还会继续保留,原有的流式训练数据生成拓扑后面会直接接一个流式模型更新的拓扑,训练数据不是先落地HDFS然后再从HDFS加载,而是直接用于模型更新。架构中会有一个逻辑上的参数服务器用来存放模型,不同的在线学习模型和算法需要在参数服务器和流式训练拓扑中编写代码来实现特定于该模型和算法的更新方法。随着训练数据生成拓扑和模型更新拓扑的运行,参数服务器中存放的模型会得到持续不断的更新。与此同时,这样的更新也会同步给实时推荐引擎,从而立即用于线上的推荐。

可以看到,从事件(点击/曝光/转化等等)发生,到形成一条日志,再到形成一条训练数据,再到模型更新,再到用于线上推荐,整个过程都是流式的,从头到尾的平均延迟可以做到秒级。与此同时,无论是训练数据生成和模型更新两个拓扑,还是参数服务器,都具有良好的伸缩性,可以支持大规模的模型和大数据流。

架构,模型和算法,最后还是要系统来承载。数据平台部经过多年的技术积累,手边可堪一用的系统颇多,当我们着手实现上述架构的时候,更多的是从现有系统中挑选和改进,而不是从头来。

先来看参数服务器,在线学习需要怎样的参数服务器呢?第一,其存储结构应该可以包容多种算法模型;第二,应该性能优异且支持平行扩展,从而能够容纳大模型并对其计算做负载均衡;第三,应该支持7x24小时不间断运行,高度可靠,有充分的容错机制;第四,应该可以方便地扩展接口,实现特定于算法的逻辑功能。目前开源社区有很多机器学习平台都有自己的参数服务器,然而完全满足上述四条需求的并不多,特别是对高可靠运营的需求,盖因社区的参数服务器大多针对离线模型训练的场景,而非不间断在线学习的场景。数平有一个经过多年大强度运营考验的全内存分布式cache系统——TDE[9]完全满足上面的四个要求,所以我们选择在TDE的基础之上来开发参数服务器,通过扩展TDE的功能来支持各种在线学习的模型和算法。

最后来看在线学习与实时推荐引擎的对接。此前我们采用的是模型文件推送+模型动态加载的机制来将新训练出来的模型推送到线上。当模型变成在线学习之后,这个推送的频率可以更高。目前线上的生产系统仍然还是走这套机制。然而,最终的方案将是随着模型更新实时地推送模型到推荐引擎,为此我们将引入可靠的消息中间件Hippo[10]来完成这最后一公里的推送,最终贯通全流程。这一实现将在不远的将来用于线上生产系统。

值得在本节末尾再提一句的是,整个系统架构的升级不仅抬高了处理问题规模的天花板,也大大降低了模型训练端到端的资源消耗。在数据量,特征量均有显著增加的情况下,实际使用的机器资源有成倍的减少,省出来的资源可以拿来支持压力越来越大的在线预测,可谓是雪中送炭。

首先来看模型和算法,实际上实用的在线学习模型和算法,不论归属于哪一类,一般都会在原理上提供一些手段来应对训练数据中的波动的。例如,FTRL-Proximal支持自适应学习率和正则化,这都有助于抑制模型的剧烈波动。使用贝叶斯推理的概率模型更是可以利用适当的先验设定和大数据量来抑制模型的剧烈波动。工业界有一些做法是通过引入较粗粒度的历史统计量作为特征,或者直接将其用作平滑手段。这种方法我们使用的不多,一方面是因为我们用的模型的原始特征相对较多,交叉维度更多,计算历史统计量的开销也不低,而且不恰当的设定可能反而不利于发挥模型的拟合能力;另一方面是因为历史统计量本身也面临波动的影响,我们更希望依托模型和算法本身的能力。

除此之外,我们也在全数据流监控上下了一番功夫。模型、算法和系统的耐受力毕竟是有限的,快速准确的捕捉到波动和故障的源头对于控制和减少损失十分重要。目前,日志数据量、训练数据量、各主要特征的分布指标、模型实时质量指标、线上效果指标等均在监控之列,关键指标还配置有NOC告警。

从模型快速更新到模型在线学习,这是一个自然的发展过程。技术天花板抬高了,以前无法处理的大数据量、大特征量和大模型,现在都可以有效处理而不会导致模型更新变慢,这对pCTR效果提升的好处是显而易见的。我们已经实现了这样一套具有良好伸缩性和可靠性的在线学习系统,并且在生产实践中取得成功应用。纵观业界,不少公司也在生产中使用了各种在线学习的模型和算法。同在线学习的广阔空间相比,目前我们的实践还是很初级的,未来我们一方面会去继续发挥在线学习的优势,拥抱更多的数据和特征,另一方面还会尝试更为复杂的模型和算法。

[1]"快速模型更新及其在腾讯精准推荐中的应用"

[2]JeffreyDeanandGregS.CorradoandRajatMongaandKaiChenandMatthieuDevinandQuocV.LeandMarkZ.MaoandMarc’AurelioRanzatoandAndrewSeniorandPaulTuckerandKeYangandAndrewY.Ng,LargeScaleDistributedDeepNetworks,NIPS2012.

[3]EricP.Xing,QirongHo,WeiDai,JinKyuKim,JinliangWei,SeunghakLee,XunZheng,PengtaoXie,AbhimanuKumar,YaoliangYu,Petuum:ANewPlatformforDistributedMachineLearningonBigData,KDD2015.

[4]AvrimBlum,On-LineAlgorithmsinMachineLearning,InProceedingsoftheWorkshoponOn-LineAlgorithms,Dagstuhl,pages306-325,1996.

[5]H.BrendanMcMahan,GaryHolt,D.Sculley,MichaelYoung,DietmarEbner,JulianGrady,LanNie,ToddPhillips,EugeneDavydov,DanielGolovin,SharatChikkerur,DanLiu,MartinWattenberg,ArnarMarHrafnkelsson,TomBoulos,JeremyKubica,AdClickPrediction:aViewfromtheTrenches,KDD2013.

[6]ThoreGraepel,JoaquinQuioneroCandela,ThomasBorchert,RalfHerbrich,Web-ScaleBayesianClick-ThroughRatePredictionforSponsoredSearchAdvertisinginMicrosoft’sBingSearchEngine,ICML2010.

[7]ChengLi,YueLu,QiaozhuMei,DongWangandSandeepPandey.Click-ThroughPredictionforAdvertisinginTwitterTimeline,KDD2015.

[9]"腾讯实时计算平台(TRC)系列之一:初识TRC"

[10]"【Hippo系列-系统介绍】分布式高可靠消息中间件Hippo"

THE END
1.在线学习与离线学习离线和在线学习方法机器学习算法可以分成两类。离线学习和在线学习。 在离线学习算法中,我们会有一个训练集,这个训练集包含多个训练实例。每个训练实例都认为是以某个概率分布从实例空间中独立同分布地抽取。我们的目标是根据这个训练样本构造一个分类器,使得其真正训练错误最小。‘ https://blog.csdn.net/hedan2013/article/details/78011600
2.推荐算法中的在线学习和离线学习有何区别,各自的优缺点是什么在线学习和离线学习是推荐算法中常见的训练方式,各自有不同的优缺点。在实际应用中可以根据需求选择合适的方式或结合两者优势。https://www.mbalib.com/ask/question-ec5c1bbee149c6534d0a725ffdb15235.html
3.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
4.在线学习课程PADIPADI 在线水肺培训 无论何时何地,只要您都可根据自己的安排开始您的数字化潜水培训。 在繁忙的生活中,PADI 在线学习是完成水肺潜水课程的最简单的方式。 您可以使用电脑或移动设备,自行安排在线或离线学习。 准备就绪后,随时开始安排水下训练。查看在线课程 https://www.padi.com/zh-hans/padi-elearning
5.离线强化学习因此,离线强化学习(offline reinforcement learning)的目标是,在智能体不和环境交互的情况下,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略。离线强化学习和在线策略算法、离线策略算法的区别如图 18-1 所示。图18-1 离线强化学习和在线策略算法、离线策略算法的区别https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
6.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
7.澳门码今晚开奖免费查结果,新澳门开奖记录查询今天,新澳门六开奖美河学习在线(主站) eimhe.com?论坛 今日:26|昨日:119|帖子:355527|会员:224010|欢迎新会员:鑫鑫 最新回复 下载桌面快捷访问 美河学习在线 www.eimhe.com - IT认证超级社区 更多IT认证热门资源请访问 美河学习在线 - 完美超乎想象 信赖拥有值得! https://eimhe.com/
8.基于数据的ADP离线值迭代算法和在线Q学习算法研究针对上述存在的问题,结合自适应动态规划离在线实现的优缺点,本文提出一种先离线后在线的自适应优化控制方法,即:在被控对象未知的情况下,采用基于数据自适应动态规划离线值迭代算法首先对系统进行离线优化控制,再使用在线Q学习策略迭代算法对离线优化控制进行在线改善。这种先离线后在线的基于数据的自适应优化控制方法,可以https://cdmd.cnki.com.cn/Article/CDMD-10593-1012496385.htm
9.学习用于视觉跟踪的深度紧凑图像表示腾讯云开发者社区与大多数仅在线学习跟踪对象外观的现有跟踪器相比,我们采用不同的方法,受深度学习架构的最新进展的启发,更加强调(无监督)特征学习问题。具体来说,通过使用辅助自然图像,我们离线训练堆叠去噪自动编码器,以学习对变化更加鲁棒的通用图像特征。然后是从离线培训到在线跟踪过程的知识转移。在线跟踪涉及分类神经网络,该分类https://cloud.tencent.com/developer/article/2080065
10.系统回顾深度强化学习预训练,在线离线等研究这一篇就够了在单一环境和单一模态下的预训练方法主要集中于以上提到的在线预训练和离线预训练设定,而在最近,领域内的研究者对建立一个单一的通用决策模型的兴趣激增(例如,Gato [1] 和 Multi-game DT [2]),使得同一模型能够处理不同环境中不同模态的任务。为了使智能体能够从各种开放式任务中学习并适应这些任务,该研究希望能https://m.thepaper.cn/newsDetail_forward_20718623
11.争学网官方版争学网最新版下载2.1.27无论是想提升职业技能、学习兴趣爱好,还是备考各类考试,争学网都能为用户提供丰富的学习资源。 软件特色 1、提供在线测试的综合服务,是能评估用户学习效果的; 2、记录用户学习历史,方便用户复习和追溯的一个程序; 3、每个课程都是由专业人员设计,具有很高的质量。 软件功能 1、软件能支持在线学习和离线下载,让用户https://www.qimu86.com/soft/66139.html
12.菜鸟教程菜鸟教程(www.runoob.com)提供了编程的基础技术教程, 介绍了HTML、CSS、Javascript、Python,Java,Ruby,C,PHP , MySQL等各种编程语言的基础知识。 同时本站中也提供了大量的在线实例,通过实例,您可以更好的学习编程。..https://www.runoob.com/
13.全国碳交易能力建设培训中心在线学习平台“全国碳交易能力建设培训中心在线学习平台”共提供5大类、100余个碳市场能力建设相关教学视频,支持PC和移动端的高稳定性在线、离线访问,提供高互动、高分享性的学习体验,并配合“能力建设在线考核评价体系”,建成全周期跟进式的学习管理系统(LMS),实现能力建设的全流程信息化服务和管理。 http://www.tanpaifang.com/tanguwen/2019/0730/64899.html
14.线上线下融合教学的优势不足与发展策略内容线上线下融合教学主要包含传统课堂学习和使用Internet平台和信息技术的在线学习两种学习方式。是利用信息化技术,将“线上+线下”教学有效结合起来的一种新型的教学模式。此外线上线下融合教学具有鲜明的教学特征: 首先,在教学方式上:以信息网络的学习平台为载体,以现代信息技术为媒介,依靠手机,平板电脑等个人智能终端设备https://tpd.xhedu.sh.cn/cms/app/info/doc/index.php/92024
15.在线学习App排行榜OPPO手机在线学习app推荐一起小学学生,专为小学生研发的在线学习App,让学生用手机就可以练习听力、学习口语、做速算练习。功能简介: 1. 趣味学习App,让学习随时随地,酷劲十足同步练习题,实用、生动又有趣英语跟读练口语,方便、快捷又好用 2. 自动批改,错题重做,我的学习我做主完成练习立刻了解练习情况,不用再等老师批改错题还可以重做,https://www.diandian.com/phb/1335/5-1.html
16.2020届计算机科学方向毕业设计(论文)阶段性汇报基于深度学习的跨年龄人脸识别 通过引入对抗模块使得身份相关特征最大程度上和年龄解耦,一定程度上提升了模型性能。 张哲恺 图排序的硬件加速器设计 加速器的最终硬件架构、重要细节及实验结果。 蒋泽天 多图的离线协同式匹配和在线增量式匹配 介绍多图的离线协同式匹配和在线增量式匹配,MGM-FLoyd,MGM-SPFA和FastSPFA。https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
17.基于移动互联平台的数字化学习资源在互动教学中的应用A、师生在线学习 显示学生正在学习的课程列表,学生可在线或离线学习课程资源。教师可根据教学需要,利用各种多媒体技术组织上传教学资源。 B、实时教学辅导 教师可通过论坛、实时交互工具,按计划在约定的时间内与学生进行实时互动。可与网络教学平台共享数据,同步实现,以便通过两个平台同步进行实时辅导。 http://www.esx.tn.czedu.cn/html/article3213452.html
18.云端学习–网络学院帮助中心由于课程无法观看涉及:课程、设备、网络三方面问题,以上5项确认完毕后课程依然无法观看,可使用无法观看的设备登录平台,接入在线客服联系进行进一步排查。 ?电脑端学习课程不记录进度:请先进行以下操作: 1、 确认课程及平台没有问题; 2、 确认未同时打开多个课程; 3、 确认未同时多终端登录账号学习; 4、 使用正确https://help.21tb.com/archives/tag/%E4%BA%91%E7%AB%AF%E5%AD%A6%E4%B9%A0/feed
19.在线100分app下载在线100分手机版v1.3.0安卓版在线100分客户端是为企业安全生产使用的培训软件,同步备份和云存储,可以保存用户学习记录和错题,随时查看和再次学习。具有联网及离线两种学习方式,随时随地都可以进行学习。在http://m.pipikun.com/android/soft/33993.html
20.中欧在线学习下载app手机版2024最新免费安装中欧在线学习介绍 介绍(2024-09-21) 中欧移动商学院 “中欧在线学习”是由中欧商业在线推出的手机2.0学习客户端本应用需要购买课程(详情请查询中欧商业在线官网),获得用户名和密码后,才能登录学习,获得学习资源。主要特性:1. 支持学习课件(视频,测验)、离线学习2. 支持在线考试,评价3. 手机端学习数据与PC端数据https://m.pianwan.com/app/109752