深度学习在计算广告中的应用随着机器学习特别是深度学习的不断发展,其广泛应用于计算广告投放流程的各个阶段。笔者最近对深度

2019年阿里巴巴推荐团队发表的论文《SDM:SequentialDeepMatchingModelforOnlineLarge-scaleRecommenderSystem》提出了SDM(SequentialDeepMatchingModel)算法,其在双塔模型的基础上,引入用户行为序列,挖掘其中长、短期兴趣信息,并融合得到用户兴趣表征,从而能够通过用户历史行为进行更加个性化的推荐。

损失函数使用交叉熵损失函数:

2019年阿里巴巴天猫团队发表的论文《Multi-InterestNetworkwithDynamicRoutingforRecommendationatTmall》提出了MIND(Multi-InterestNetworkwithDynamicrouting)算法,设计了多兴趣抽取层(Multi-InterestExtractorLayer),通过动态路由(DynamicRouting),自适应地聚合用户历史行为生成用户兴趣表征,将用户历史行为划分为多个聚类,每类的用户历史行为被转化为表征用于表示用户的某一类兴趣,因此,对于一个用户,MIND会输出多个用户表征,用于表达用户多样化的兴趣。

MIND的任务之二是将召回的目标商品的特征通过商品塔转化为商品表征:

《LearningTree-basedDeepModelforRecommenderSystems》是阿里妈妈算法团队于2018年发表的一篇论文,其中提出了TDM,创新性地将树结构索引和深度神经网络结合,在推荐系统召回阶段,通过树结构索引实现海量商品的快速检索和高效剪枝。

论文中还提到,召回过程中实际并不需要计算出概率真实值,只需要计算出各节点概率的相对大小即可,因此论文使用用户和商品交互这类隐式反馈作为样本,使用一个深度神经网络进行训练,用作各节点的分类器,即全局所有分类器共用一个深度神经网络。

对于树的构建和模型训练,论文的整体方案是,先采用一定的方法初始化树,再按以下的步骤循环多次:

最终得到线上服务使用的深度神经网络和树结构。

TDM方案存在以下不足:一是索引和模型的联合训练比较耗计算资源,二是树结构索引中的每个非叶子节点并不表示具体的某个商品(仅每个叶子节点表示具体的某个商品),因此在模型中,节点特征无法使用商品信息。而NANN解决了上述的两个不足:一是在模型训练和图搜索上进行优化减少计算量,二是图中的节点均表示具体商品,可以充分使用商品信息。

NANN的模型结构如下图所示:

对于图的构建,论文直接使用了HNSW算法,并使用商品向量的L2距离作为距离度量。基于HNSW算法进行分层遍历,如下所示:

多任务学习、多场景学习的主要区别如图25所示,多任务学习是对同一样本数据集的多个不同类型的任务进行联合学习,而多场景学习是对多个不同场景样本数据集的同一类任务进行联合学习。

在DeepGSP机制下,强化学习涉及的状态、动作和奖励定义如下:

2018年发表的论文《BudgetConstrainedBiddingbyModel-freeReinforcementLearninginDisplayAdvertising》提出了基于无模型强化学习的自动出价。

这里的无模型是指不对环境进行建模、不直接计算状态转移概率,智能体只能和环境进行交互,通过采样得到的数据进行学习,这类学习方法统称为无模型的强化学习(Model-freeReinforcementLearning)。无模型的强化学习又可以分为基于价值和基于策略的算法,基于价值的算法主要是学习价值函数,然后根据价值函数导出一个策略,学习过程中并不存在一个显式的策略,而基于策略的算法则是直接显式地学习一个策略函数,另外,基于策略的算法中还有一类Actor-Critic算法,其会同时学习价值函数和策略函数。

论文具体使用DQN算法,该算法将强化学习中基于价值的算法和深度学习相结合。另外,论文在该算法的基础上,针对自动出价场景的特点进行优化。

论文使用带约束的马尔科夫决策过程(ConstrainedMarkovDecisionProcess,CMDP)对自动出价问题进行建模,如图31所示,其分为离线训练环境和在线预测环境。

自动出价目标可由下式表示:

基于上述约束条件的统一表示,论文给出带约束自动出价问题的统一表示:

论文进一步推导出上述线性规划问题取得最优解时,每次展现的出价可由下式表示:

上一节已提到无模型的强化学习分为基于价值和基于策略的算法,基于价值的算法主要是学习价值函数,然后根据价值函数导出一个策略,学习过程中并不存在一个显式的策略,而基于策略的算法则是直接显式地学习一个策略函数,另外,基于策略的算法中还有一类Actor-Critic算法,其会同时学习价值函数和策略函数。USCB具体使用了Actor-Critic算法中的DDPG算法。DDPG算法使用Actor网络和Critic网络分别拟合策略函数和价值函数。DDPG算法在和环境的交互中,先使用Actor网络根据状态得到动作,再使用Critic网络根据状态和动作得到动作价值。USCB中DDPG算法的实现与原始DDPG算法基本一致,其中几处细节是:

和USCB类似,PerBid首先对带约束自动出价问题进行建模:

和USCB类似,PerBid也推导出最优出价公式:

之前所介绍的各自动出价方案,均先离线与仿真竞价系统交互进行训练、再在线与真实竞价系统交互进行预测,因此存在一个共性问题是如何保持仿真竞价系统和真实竞价系统的一致性,而真实竞价系统存在复杂的拍卖机制、激励的出价竞争,仿真竞价系统难以精确模拟真实竞价系统,而如果不能保持两个系统的一致性,则可能导致仿真竞价系统下所训练的自动出价方案在真实竞价系统中非最优。

阿里妈妈在2023年发表的论文《SustainableOnlineReinforcementLearningforAuto-bidding》,其提出的SOLA框架,将离线强化学习和在线安全探索相结合,同时解决了训练依赖仿真竞价系统和在线探索出价安全性的问题。

粗排和精排均可以认为是排序(LearningtoRank,LTR)问题,而排序问题的求解一般有3种方式:

这三种方法从上到下,从只考虑序列中元素自身、到考虑序列中两两元素相互关系再到考虑序列中所有元素相互关系,考虑的信息更加全面,但问题求解的样本空间也逐渐增大,从所有元素构成的样本空间、到所有元素两两配对构成的样本空间、再到所有元素组合序列构成的样本空间。

《COLD:TowardstheNextGenerationofPre-RankingSystem》由阿里妈妈于2020年发表,介绍了其粗排模型基于Pointwise类型的排序方法,从简单的后验统计、到浅层模型、再到深层模型的演进历程,并主要介绍了其深层模型COLD在模型结构和工程实现上的优化思路,从而在保证在线系统性能要求的前提下,在模型准确度上取得较好的提升。

降低精度。网络前向传播中的运算主要是矩阵相乘,而Float16相对Float32在矩阵相乘上有更高的性能,因此,可以使用Float16替代Float32。

令真实的训练样本集,IP(ImmediatePositive)表示立即发生转化的正样本,DP(DelayPositive)表示延迟发生转化的正样本,其等价于FN(FakeNegative),即假负样本,RN(RealNegative)表示未发生转化的真负样本。

对于上述反馈延迟问题,业界已经有比较多的理论研究和业务实践,其中一个思路是保持模型不变,但针对反馈延迟导致的样本标记分布偏差,通过在损失函数中进行正负样本的加权来纠偏。

对于点击延迟,论文在处理样本时并不会等待其相应的点击发生,而是直接将样本标记为负样本,待点击发生后,再将原样本复制成一条新样本,并将新样本标记为正样本。

论文通过推导,损失函数最终可写成:

通过复制,训练样本集除包含真实样本集中的Positive、FakeNegative和RealNegative外,还包含复制样本集中的真正样本和真负样本,真实样本集和复制样本集除部分样本的标记不同外,其余均一致。

前述论文均是基于重要性采样,并不断优化权重计算方式,但均存在一个问题,即FakeNegative样本在训练时被错误地标记。阿里妈妈于2022年发表了论文《AsymptoticallyUnbiasedEstimationforDelayedFeedbackModelingviaLabelCorrection》,提出了DEFUSE(DElayedFeedbackmodelingwithUnbiaSedEstimation)算法,采用两阶段优化来解决上述问题,首先预测FakeNegative样本的概率,然后再进行重要性采样。

基于规则的归因算法包括但不限于:

基于数据的算法最早于2011年在论文《Data-drivenMulti-touchAttributionModels》中被提出,其中使用Logistic回归模型进行各触点归因权重分析,而随着深度学习的发展,近几年来不少论文探索基于深度学习的多触点归因算法。

2018年发表的论文《DeepNeuralNetwithAttentionforMulti-channelMulti-touchAttribution》提出了DNAMTA算法。论文指出其首次在业界将深度学习应用于多触点归因中。

即将转化路径中属于该渠道的触点的归因权重求和。

将各个渠道的ROI作为其权重,从总预算中分配该渠道的预算:

CAMTA的整体网络结构如图48所示,其包含三部分。

2021年的论文《CausalMTA:EliminatingtheUserConfoundingBiasforCausalMulti-touchAttribution》提出了CausalMTA,其和CAMTA相比,将用户偏好这一混杂因子,进一步区分为不变的静态属性和变化的动态特征,对于静态属性,其使用变分循环自编码器作为渠道序列生成模型获取其无偏分布,然后基于无偏分布和逆概率加权方法对每个转化路径重加权,从而消除静态属性引起的选择偏差,而对于动态特征,其和CAMTA类似,也是借鉴CRN,通过循环神经网络和域对抗训练,生成用户历史的无偏表征,从而消除动态特征引起的选择偏差,得到无偏的转化率预估模型。最后,基于转化率预估模型,采用反事实分析计算各渠道的夏普利值作为归因权重,即对各渠道,使用转化率预估模型分别预估有无该渠道时的转化率,因引入该渠道带来的转化率提升即该渠道对转化的边际期望增益,也就是该渠道的夏普利值,被作为该渠道的归因权重。

CausalMTA整体解决方案模型如图50所,其包含三部分。第一部为转化路径重加权(JourneyReweighting),其对于静态属性,使用变分循环自编码器作为渠道序列生成模型获取其无偏分布,然后基于无偏分布和逆概率加权方法对每个转化路径重加权,从而消除静态属性引起的选择偏差。第二部分为因果转化率预估(CausalConversionPrediction),其对于动态特征,借鉴CRN,通过循环神经网络和域对抗训练,生成用户历史的无偏表征,从而消除动态特征引起的选择偏差,得到无偏的转化率预估模型。第三部分为归因权重计算(Attribution),其基于转化率预估模型,采用反事实分析计算各渠道的夏普利值作为归因权重,即对各渠道,使用转化率预估模型分别预估有无该渠道时的转化率,因引入该渠道带来的转化率提升即该渠道对转化的边际期望增益,也就是该渠道的夏普利值,被作为该渠道的归因权重。

上一节介绍的MMoE采用多个专家网络对各任务的知识进行挖掘和共享,并对每个任务设计其专有的门控网络,每个任务的门控网络对各专家网络的输出进行加权求和作为该任务专有网络塔的输入。

综上,PLE构建多层抽取网络,在CGC网络区分任务专有专家网络和共享专家网络、分别挖掘专有和共享知识的基础上,进一步通过共享门控网络逐层从所有专家网络中抽取共享知识,从而实现各任务专有信息和所有任务共享信息的逐层抽取和深层挖掘。

THE END
1.train和offlinetrain需要交互的训练是online吗离线学习适用于处理大数据和复杂模型,需要所有训练数据在训练前可用,训练完成后模型才用于预测。在线学习则侧重实时性,数据以流式到达,模型会随新数据不断更新。两种方式常结合使用,如离线训练后在线微调。在线学习关注当前数据,离线学习则能看到全局。 摘要由CSDN通过智能技术生成 https://blog.csdn.net/qq_45104603/article/details/126052925
2.关于训练神经网路的诸多技巧Tricks(完全总结版)很多人都说训练神经网络和炼金术师炼药的过程相像,难以破解其中的黑盒子。其实不然,在训练的时候我们依然可以通过大量的技巧去最大化我们的训练效果,从而帮助我们的任务取得不错的精度,这些技巧是训练神经网络不可缺少的一环。 本文尽可能说明训练过程中所需要的各种小技巧,会有不完善的地方,限于篇幅每个点不会说很https://cloud.tencent.com/developer/article/2346565
3.如何构建高效的离线机器学习模型训练平台?袋鼠社区此外,离线训练还能够有效减少对网络带宽的依赖,提升训练的稳定性和效率。 二、离线机器学习模型训练平台的核心组成部分1. 硬件环境: 离线机器学习训练平台的硬件环境是基础,包括计算机硬件(CPU、GPU等)、存储设备(HDD、SSD)和网络设施等。合适的硬件配置对模型训练速度和性能起着至关重要的作用。比如,GPU在处理大型https://www.dtstack.com/bbs/article/15769
4.相比于离线训练,在线训练的好处有什么?问答离线训练毕竟使用的是 T-1 或者 T-2 的数据去做的,没有对线上实时产生的行为数据进行利用,对于数据的时效性利用相对较差。 比如说,有这样的一个场景,今天我的整个平台只对 14 岁以下的少女做某个运营活动,而平台上充斥了大量的年龄段的客户,整个平台的交互行为都变了,这个时候你的模型还是 T-1 去做的,将https://developer.aliyun.com/ask/446535
5.模型也可以上网课?!一文看懂服务型蒸馏训练方案同时由于Teacher模型可以弹性调度,不用担心高峰时线上实例被抢占造成的任务失败。相当于把teacher对训练卡的资源需求转移到了在线GPU卡上,在v100等离线训练资源受限的情况下,使用在线卡对训练进行加速,以节约宝贵的训练资源。 此外,在离线集群上,结合调度策略,还可以将Teacher模型部署到集群碎片资源,或者如k40等使用率https://www.thepaper.cn/newsDetail_forward_8071575
6.谁说RL智能体只能在线训练?谷歌发布离线强化学习新范式为了避免 distribution mismatch,强化学习的训练一定要在线与环境进行交互吗?谷歌的这项最新研究从优化角度,为我们提供了离线强化学习研究新思路,即鲁棒的 RL 算法在足够大且多样化的离线数据集中训练可产生高质量的行为。 为了避免 distribution mismatch,强化学习的训练一定要在线与环境进行交互吗?谷歌的这项最新研究从优化https://www.51cto.com/article/614512.html
7.深度学习模型在线训练排序策略离线排序模型华为云帮助中心为你分享云计算行业信息,包含产品介绍、用户指南、开发指南、最佳实践和常见问题等文档,方便快速查找定位问题与能力成长,并提供相关资料和解决方案。本页面关键词:深度学习模型 在线训练。https://support.huaweicloud.com/topic/985668-2-S
8.科学网—[转载]群视角下的多智能体强化学习方法综述基于学习(深度学习、强化学习)设计的迭代式问题求解方法是离线策略学习的基础范式。由于环境及对手的非平稳性,离线训练的蓝图策略通常很难直接运用于在线对抗。在线博弈对抗过程与离线利用模拟多次对抗学习博弈过程不同,博弈各方处于策略解耦合状态,与离线批(batch)式策略学习方法不同,在线博弈对抗策略的求解本质是一个流https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
9.蚂蚁金服核心技术:百亿特征实时推荐算法揭秘备注:弹性特征带来一个显著的优势:只要用足够强的L1稀疏性约束,在单机上就能调试任意大规模的特征训练,带来很多方便。我们的hashmap实现是KV化的,key是特征,value是vector的首地址。 离线训练优化 经过这样的改造后,在离线批量学习上,带来了以下变化: 在线训练优化 https://maimai.cn/article/detail?fid=1010621115&efid=mIQCHnkj0zjxlpygUmo5mg
10.构建容器镜像部署nnae软件(支持离线推理在线推理训练)本文档基于镜像树结构来构建容器镜像,具有可扩展性。 镜像树示意图如图1所示。 图1镜像树示意图 表1 昇腾基础镜像树说明 镜像名 说明 ascendbase-train 安装系统组件及python第三方依赖等。 ascend-train 安装深度学习引擎包nnae(支持离线推理、在线推理、训练)等。 https://www.hiascend.com/document/detail/zh/mindx-dl/2046/dluserguide/toolboxug/toolboxug_000121.html
11.机器学习术语表:机器学习基础知识MachineLearningGoogle动态模型(或在线模型)是一种模型, 。 动态训练(或在线训练)是训练 频繁或持续不断 动态推理(即在线推理)是 根据需求生成预测。 动态模型 #fundamentals 一个模型经常出现(甚至可能会持续) 重新训练。动态模型是一个“终身学习者”那个 适应不断演变的数据。动态模型也称为在线模型。 https://developers.google.cn/machine-learning/glossary/fundamentals?hl=zh-cn
12.基于Kmeans聚类的CSI室内定位AET对于单个天线对得到fin,对于m个天线的每个天线对使用Kmeans算法,得到训练向量: 2.2 在线定位阶段 在线定位阶段采用与离线训练阶段相同的方法提取到m个天线对的指纹: 将提取到的指纹与训练阶段建立的数据库中的指纹作比较,即将获取到的第i个天线对的指纹矩阵与数据库中的第i个天线对的指纹矩阵,进行两个指纹矩阵中任http://www.chinaaet.com/article/3000057028
13.粗排优化探讨得物技术离线在线一致性分析 待补充实际效果 四 样本设计 粗排相较于精排样本选择偏差(SSB)的问题更加严重,借鉴召回经验,可以通过适当采样减少偏差。采样设计的目的也是希望离线训练样本尽可能与线上分布一致。 样本选择方法 负样本可选范围: 曝光未点击样本; 全库除转化外样本; https://blog.itpub.net/70027824/viewspace-3000851/
14.推荐模型离线评测效果好,线上效果却不佳的原因推荐系统里非常常见,并且往往非常的隐蔽的一种数据分布不一致的情况被称之为冰山效应,也就是说离线训练用的是有偏的冰山上的数据,而在线上预估的时候,需要预测的是整个冰山的数据,包括大量冰面以下的数据!我们看下面这张图。左边是我们的Baseline,绿色的表示正样本,红色表示负样本,灰色部分表示线上由于推荐系统的“https://www.jianshu.com/p/34489b31c783
15.微软亚洲研究院解密:AISuphx是如何成为麻将十段的?科技当初始的手牌发到麻将AI手中时,通过模拟来调整离线训练好的策略,使其更适应这个给定的初始手牌。微软亚洲研究院的实验表明,相对麻将隐藏信息集的平均大小10的48+次方倍而言,模拟的次数不需要很大,pMCPA也并不需要为这一局手牌收集所有可能后续状态的统计数据。由于pMCPA是一种参数化的方法,所以微调更新后的策略可以帮https://www.whb.cn/zhuzhan/kjwz/20200412/340072.html
16.推荐算法中的在线学习和离线学习有何区别,各自的优缺点是什么在线学习和离线学习是推荐算法中常见的训练方式,各自有不同的优缺点。在实际应用中可以根据需求选择合适的方式或结合两者优势。https://www.mbalib.com/ask/question-ec5c1bbee149c6534d0a725ffdb15235.html
17.2019机器之心人工智能年度奖项正式公布:关注创业先锋,聚焦产品2019 年,天泽智云发布无忧机加解决方案,基于 CPS 信息物理系统架构,融合高频振动数据和加工运行数据,结合机理、数据的智能分析,离线训练算法模型,在线评估刀具健康状态,实现刀具失效预警、刀具寿命预测和主轴健康管理。截止 2019 年 12 月底,已服务 2 家机床厂商,为其增强产品竞争力,提升服务价值;助力 4 家制造商将https://www.zhuanzhi.ai/document/2abfb47db9cd9ab70b4144f329e147b8