深度学习在计算广告中的应用随着机器学习特别是深度学习的不断发展,其广泛应用于计算广告投放流程的各个阶段。笔者最近对深度

2019年阿里巴巴推荐团队发表的论文《SDM:SequentialDeepMatchingModelforOnlineLarge-scaleRecommenderSystem》提出了SDM(SequentialDeepMatchingModel)算法,其在双塔模型的基础上,引入用户行为序列,挖掘其中长、短期兴趣信息,并融合得到用户兴趣表征,从而能够通过用户历史行为进行更加个性化的推荐。

损失函数使用交叉熵损失函数:

2019年阿里巴巴天猫团队发表的论文《Multi-InterestNetworkwithDynamicRoutingforRecommendationatTmall》提出了MIND(Multi-InterestNetworkwithDynamicrouting)算法,设计了多兴趣抽取层(Multi-InterestExtractorLayer),通过动态路由(DynamicRouting),自适应地聚合用户历史行为生成用户兴趣表征,将用户历史行为划分为多个聚类,每类的用户历史行为被转化为表征用于表示用户的某一类兴趣,因此,对于一个用户,MIND会输出多个用户表征,用于表达用户多样化的兴趣。

MIND的任务之二是将召回的目标商品的特征通过商品塔转化为商品表征:

《LearningTree-basedDeepModelforRecommenderSystems》是阿里妈妈算法团队于2018年发表的一篇论文,其中提出了TDM,创新性地将树结构索引和深度神经网络结合,在推荐系统召回阶段,通过树结构索引实现海量商品的快速检索和高效剪枝。

论文中还提到,召回过程中实际并不需要计算出概率真实值,只需要计算出各节点概率的相对大小即可,因此论文使用用户和商品交互这类隐式反馈作为样本,使用一个深度神经网络进行训练,用作各节点的分类器,即全局所有分类器共用一个深度神经网络。

对于树的构建和模型训练,论文的整体方案是,先采用一定的方法初始化树,再按以下的步骤循环多次:

最终得到线上服务使用的深度神经网络和树结构。

TDM方案存在以下不足:一是索引和模型的联合训练比较耗计算资源,二是树结构索引中的每个非叶子节点并不表示具体的某个商品(仅每个叶子节点表示具体的某个商品),因此在模型中,节点特征无法使用商品信息。而NANN解决了上述的两个不足:一是在模型训练和图搜索上进行优化减少计算量,二是图中的节点均表示具体商品,可以充分使用商品信息。

NANN的模型结构如下图所示:

对于图的构建,论文直接使用了HNSW算法,并使用商品向量的L2距离作为距离度量。基于HNSW算法进行分层遍历,如下所示:

多任务学习、多场景学习的主要区别如图25所示,多任务学习是对同一样本数据集的多个不同类型的任务进行联合学习,而多场景学习是对多个不同场景样本数据集的同一类任务进行联合学习。

在DeepGSP机制下,强化学习涉及的状态、动作和奖励定义如下:

2018年发表的论文《BudgetConstrainedBiddingbyModel-freeReinforcementLearninginDisplayAdvertising》提出了基于无模型强化学习的自动出价。

这里的无模型是指不对环境进行建模、不直接计算状态转移概率,智能体只能和环境进行交互,通过采样得到的数据进行学习,这类学习方法统称为无模型的强化学习(Model-freeReinforcementLearning)。无模型的强化学习又可以分为基于价值和基于策略的算法,基于价值的算法主要是学习价值函数,然后根据价值函数导出一个策略,学习过程中并不存在一个显式的策略,而基于策略的算法则是直接显式地学习一个策略函数,另外,基于策略的算法中还有一类Actor-Critic算法,其会同时学习价值函数和策略函数。

论文具体使用DQN算法,该算法将强化学习中基于价值的算法和深度学习相结合。另外,论文在该算法的基础上,针对自动出价场景的特点进行优化。

论文使用带约束的马尔科夫决策过程(ConstrainedMarkovDecisionProcess,CMDP)对自动出价问题进行建模,如图31所示,其分为离线训练环境和在线预测环境。

自动出价目标可由下式表示:

基于上述约束条件的统一表示,论文给出带约束自动出价问题的统一表示:

论文进一步推导出上述线性规划问题取得最优解时,每次展现的出价可由下式表示:

上一节已提到无模型的强化学习分为基于价值和基于策略的算法,基于价值的算法主要是学习价值函数,然后根据价值函数导出一个策略,学习过程中并不存在一个显式的策略,而基于策略的算法则是直接显式地学习一个策略函数,另外,基于策略的算法中还有一类Actor-Critic算法,其会同时学习价值函数和策略函数。USCB具体使用了Actor-Critic算法中的DDPG算法。DDPG算法使用Actor网络和Critic网络分别拟合策略函数和价值函数。DDPG算法在和环境的交互中,先使用Actor网络根据状态得到动作,再使用Critic网络根据状态和动作得到动作价值。USCB中DDPG算法的实现与原始DDPG算法基本一致,其中几处细节是:

和USCB类似,PerBid首先对带约束自动出价问题进行建模:

和USCB类似,PerBid也推导出最优出价公式:

之前所介绍的各自动出价方案,均先离线与仿真竞价系统交互进行训练、再在线与真实竞价系统交互进行预测,因此存在一个共性问题是如何保持仿真竞价系统和真实竞价系统的一致性,而真实竞价系统存在复杂的拍卖机制、激励的出价竞争,仿真竞价系统难以精确模拟真实竞价系统,而如果不能保持两个系统的一致性,则可能导致仿真竞价系统下所训练的自动出价方案在真实竞价系统中非最优。

阿里妈妈在2023年发表的论文《SustainableOnlineReinforcementLearningforAuto-bidding》,其提出的SOLA框架,将离线强化学习和在线安全探索相结合,同时解决了训练依赖仿真竞价系统和在线探索出价安全性的问题。

粗排和精排均可以认为是排序(LearningtoRank,LTR)问题,而排序问题的求解一般有3种方式:

这三种方法从上到下,从只考虑序列中元素自身、到考虑序列中两两元素相互关系再到考虑序列中所有元素相互关系,考虑的信息更加全面,但问题求解的样本空间也逐渐增大,从所有元素构成的样本空间、到所有元素两两配对构成的样本空间、再到所有元素组合序列构成的样本空间。

《COLD:TowardstheNextGenerationofPre-RankingSystem》由阿里妈妈于2020年发表,介绍了其粗排模型基于Pointwise类型的排序方法,从简单的后验统计、到浅层模型、再到深层模型的演进历程,并主要介绍了其深层模型COLD在模型结构和工程实现上的优化思路,从而在保证在线系统性能要求的前提下,在模型准确度上取得较好的提升。

降低精度。网络前向传播中的运算主要是矩阵相乘,而Float16相对Float32在矩阵相乘上有更高的性能,因此,可以使用Float16替代Float32。

令真实的训练样本集,IP(ImmediatePositive)表示立即发生转化的正样本,DP(DelayPositive)表示延迟发生转化的正样本,其等价于FN(FakeNegative),即假负样本,RN(RealNegative)表示未发生转化的真负样本。

对于上述反馈延迟问题,业界已经有比较多的理论研究和业务实践,其中一个思路是保持模型不变,但针对反馈延迟导致的样本标记分布偏差,通过在损失函数中进行正负样本的加权来纠偏。

对于点击延迟,论文在处理样本时并不会等待其相应的点击发生,而是直接将样本标记为负样本,待点击发生后,再将原样本复制成一条新样本,并将新样本标记为正样本。

论文通过推导,损失函数最终可写成:

通过复制,训练样本集除包含真实样本集中的Positive、FakeNegative和RealNegative外,还包含复制样本集中的真正样本和真负样本,真实样本集和复制样本集除部分样本的标记不同外,其余均一致。

前述论文均是基于重要性采样,并不断优化权重计算方式,但均存在一个问题,即FakeNegative样本在训练时被错误地标记。阿里妈妈于2022年发表了论文《AsymptoticallyUnbiasedEstimationforDelayedFeedbackModelingviaLabelCorrection》,提出了DEFUSE(DElayedFeedbackmodelingwithUnbiaSedEstimation)算法,采用两阶段优化来解决上述问题,首先预测FakeNegative样本的概率,然后再进行重要性采样。

基于规则的归因算法包括但不限于:

基于数据的算法最早于2011年在论文《Data-drivenMulti-touchAttributionModels》中被提出,其中使用Logistic回归模型进行各触点归因权重分析,而随着深度学习的发展,近几年来不少论文探索基于深度学习的多触点归因算法。

2018年发表的论文《DeepNeuralNetwithAttentionforMulti-channelMulti-touchAttribution》提出了DNAMTA算法。论文指出其首次在业界将深度学习应用于多触点归因中。

即将转化路径中属于该渠道的触点的归因权重求和。

将各个渠道的ROI作为其权重,从总预算中分配该渠道的预算:

CAMTA的整体网络结构如图48所示,其包含三部分。

2021年的论文《CausalMTA:EliminatingtheUserConfoundingBiasforCausalMulti-touchAttribution》提出了CausalMTA,其和CAMTA相比,将用户偏好这一混杂因子,进一步区分为不变的静态属性和变化的动态特征,对于静态属性,其使用变分循环自编码器作为渠道序列生成模型获取其无偏分布,然后基于无偏分布和逆概率加权方法对每个转化路径重加权,从而消除静态属性引起的选择偏差,而对于动态特征,其和CAMTA类似,也是借鉴CRN,通过循环神经网络和域对抗训练,生成用户历史的无偏表征,从而消除动态特征引起的选择偏差,得到无偏的转化率预估模型。最后,基于转化率预估模型,采用反事实分析计算各渠道的夏普利值作为归因权重,即对各渠道,使用转化率预估模型分别预估有无该渠道时的转化率,因引入该渠道带来的转化率提升即该渠道对转化的边际期望增益,也就是该渠道的夏普利值,被作为该渠道的归因权重。

CausalMTA整体解决方案模型如图50所,其包含三部分。第一部为转化路径重加权(JourneyReweighting),其对于静态属性,使用变分循环自编码器作为渠道序列生成模型获取其无偏分布,然后基于无偏分布和逆概率加权方法对每个转化路径重加权,从而消除静态属性引起的选择偏差。第二部分为因果转化率预估(CausalConversionPrediction),其对于动态特征,借鉴CRN,通过循环神经网络和域对抗训练,生成用户历史的无偏表征,从而消除动态特征引起的选择偏差,得到无偏的转化率预估模型。第三部分为归因权重计算(Attribution),其基于转化率预估模型,采用反事实分析计算各渠道的夏普利值作为归因权重,即对各渠道,使用转化率预估模型分别预估有无该渠道时的转化率,因引入该渠道带来的转化率提升即该渠道对转化的边际期望增益,也就是该渠道的夏普利值,被作为该渠道的归因权重。

上一节介绍的MMoE采用多个专家网络对各任务的知识进行挖掘和共享,并对每个任务设计其专有的门控网络,每个任务的门控网络对各专家网络的输出进行加权求和作为该任务专有网络塔的输入。

综上,PLE构建多层抽取网络,在CGC网络区分任务专有专家网络和共享专家网络、分别挖掘专有和共享知识的基础上,进一步通过共享门控网络逐层从所有专家网络中抽取共享知识,从而实现各任务专有信息和所有任务共享信息的逐层抽取和深层挖掘。

THE END
1.相比于离线训练,在线训练的好处有什么?问答离线训练毕竟使用的是 T-1 或者 T-2 的数据去做的,没有对线上实时产生的行为数据进行利用,对于数据的时效性利用相对较差。 比如说,有这样的一个场景,今天我的整个平台只对 14 岁以下的少女做某个运营活动,而平台上充斥了大量的年龄段的客户,整个平台的交互行为都变了,这个时候你的模型还是 T-1 去做的,将https://developer.aliyun.com/ask/446535
2.蚂蚁金服核心技术:百亿特征实时推荐算法揭秘备注:弹性特征带来一个显著的优势:只要用足够强的L1稀疏性约束,在单机上就能调试任意大规模的特征训练,带来很多方便。我们的hashmap实现是KV化的,key是特征,value是vector的首地址。 离线训练优化 经过这样的改造后,在离线批量学习上,带来了以下变化: 在线训练优化 https://maimai.cn/article/detail?fid=1010621115&efid=mIQCHnkj0zjxlpygUmo5mg
3.科学网—[转载]群视角下的多智能体强化学习方法综述基于学习(深度学习、强化学习)设计的迭代式问题求解方法是离线策略学习的基础范式。由于环境及对手的非平稳性,离线训练的蓝图策略通常很难直接运用于在线对抗。在线博弈对抗过程与离线利用模拟多次对抗学习博弈过程不同,博弈各方处于策略解耦合状态,与离线批(batch)式策略学习方法不同,在线博弈对抗策略的求解本质是一个流https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
4.深度学习难分样本挖掘(HardMining)数据派关键是找出影响网络性能的一些训练样本,针对性的进行处理。 简单来说就是把难分的样本,剔除出来,放到另外一个地方里面。最后将难分样本,给负样本,加强训练分类器。但是,这样又会造成数据不平衡的问题,下面会讲到。 03、方法:离线和在线 在样本训练过程中,会将训练结果与GroundTruth计算IOU。通常会设定一个阈值(0.5https://www.shangyexinzhi.com/article/4713934.html
5.粗排优化探讨得物技术离线在线一致性分析 待补充实际效果 四 样本设计 粗排相较于精排样本选择偏差(SSB)的问题更加严重,借鉴召回经验,可以通过适当采样减少偏差。采样设计的目的也是希望离线训练样本尽可能与线上分布一致。 样本选择方法 负样本可选范围: 曝光未点击样本; 全库除转化外样本; https://blog.itpub.net/70027824/viewspace-3000851/
6.基于Kmeans聚类的CSI室内定位AET对于单个天线对得到fin,对于m个天线的每个天线对使用Kmeans算法,得到训练向量: 2.2 在线定位阶段 在线定位阶段采用与离线训练阶段相同的方法提取到m个天线对的指纹: 将提取到的指纹与训练阶段建立的数据库中的指纹作比较,即将获取到的第i个天线对的指纹矩阵与数据库中的第i个天线对的指纹矩阵,进行两个指纹矩阵中任http://www.chinaaet.com/article/3000057028
7.离线学习(训练)和在线学习(训练)在线训练和离线训练文章浏览阅读1.4w次,点赞4次,收藏4次。https://blog.csdn.net/a133521741/article/details/79221015_在线训练和离线训练https://blog.csdn.net/sinat_40966515/article/details/100073130
8.编程入门实战训练CodeCamp在线编程实战CodeCamp, freeCodeCamp, 在线编程实战训练,是一个以操作实验为基础的编程训练营,它包含了HTML,CSS,Javascript,jQuery,Bootstrap等编程语言编程闯关,让你在实践中提升自己的编程能力。https://www.w3cschool.cn/codecamp
9.强化学习离线模型离线模型和在线模型推荐系统里非常常见,并且往往非常的隐蔽的一种数据分布不一致的情况被称之为冰山效应,也就是说离线训练用的是有偏的冰山上的数据,而在线上预估的时候,需要预测的是整个冰山的数据,包括大量冰面以下的数据!我们看下面这张图。左边是我们的Baseline,绿色的表示正样本,红色表示负样本,灰色部分表示线上由于推荐系统的“https://blog.51cto.com/u_14499/11815202
10.使用Merlin分层参数服务器扩展推荐系统推理推荐模型有两种培训模式:离线和在线。在线培训将新的模型更新部署到实时生产中,对于推荐的有效性至关重要。HPS 雇佣无缝更新机制通过Apache Kafka– 基于消息缓冲区连接训练和推理节点,如图 5 所示。 图5. HugeCTR 推理在线更新机制 更新机制有助于 MLOps 工作流,支持在线/频繁以及离线/再培训更新,无需停机。它还通https://www.eet-china.com/mp/a159829.html
11.推荐系统完整的架构设计和算法(协同过滤隐语义)其中,数据上报和离线训练组成了监督学习中的学习系统,而实时计算和 A/B 测试组成了预测系统。另外,除了模型之外,还有一个在线存储模块,用于存储模型和模型需要的特征信息供实时计算模块调用。图中的各个模块组成了训练和预测两条数据流,训练的数据流搜集业务的数据最后生成模型存储于在线存储模块;预测的数据流接受业务https://cloud.tencent.com/developer/article/1508050
12.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习离线强化学习,即智能体从先前收集的数据集中学习的过程,已被广泛研究并在机器人控制、推荐系统、智慧医疗等领域取得了巨大成功。然而,由于受到离线数据集质量的限制,离线强化学习智能体的性能通常是次优的。因此,在部署之前,通常需要进一步通过在线交互对预训练的离线强化学习智能体进行微调。 http://icfs.jlu.edu.cn/info/1007/3101.htm
13.2020年最值得收藏的60个AI开源工具语言&开发李冬梅SiamMask 是一款实时在线目标跟踪与目标分割统一框架。技术简单、通用、快速高效。它可以对目标实时跟踪。此款库还包含预训练模型。 项目地址:https://github.com/foolwood/SiamMask DeepCamera 世界首个自动机器学习深度学习边缘 AI 平台 ARM GPU 上的深度学习视频处理监控,用于人脸识别以及更多方法。将数码相机变成人工https://www.infoq.cn/article/2uabiqaxicqifhqikeqw