第七章人工智能,7.1基于深度强化学习与自适应在线学习的搜索和推荐算法研究(作者:灵培霹雳哲予)jiapeng

淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性。因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题。传统的LearningtoRank(LTR)方法主要是在商品维度进行学习,根据商品的点击、成交数据构造学习样本,回归出排序权重。LTR学习的是当前线上已经展示出来商品排序的现象,对已出现的结果集合最好的排序效果,受到了本身排序策略的影响,我们有大量的样本是不可见的,所以LTR模型从某种意义上说是解释了过去现象,并不一定真正全局最优的。针对这个问题,有两类的方法,其中一类尝试在离线训练中解决online和offline不一致的问题,衍生出CounterfacturalMachineLearning的领域。另外一类就是在线trial-and-error进行学习,如BanditLearning和ReinforcementLearning。

在之前我们尝试了用多臂老.虎.机.模型(Multi-ArmedBandit,MAB)来根据用户反馈学习排序策略,结合exploration与exploitation,收到了较好的效果。

后来更进一步,在原来的基础上引入状态的概念,用马尔可夫决策过程对商品搜索排序问题进行建模,并尝试用深度强化学习的方法来对搜索引擎的排序策略进行实时调控。

实际上,如果把搜索引擎看作智能体(Agent)、把用户看做环境(Environment),则商品的搜索问题可以被视为典型的顺序决策问题。Agent每一次排序策略的选择可以看成一次试错(Trial-and-Error),把用户的反馈,点击成交等作为从环境获得的奖赏。在这种反复不断地试错过程中,Agent将逐步学习到最优的排序策略,最大化累计奖赏。而这种在与环境交互的过程中进行试错的学习,正是强化学习(ReinforcementLearning,RL)的根本思想。

本文接下来的内容将对具体的方案进行详细介绍。

我们的最终目标是用强化学习进行商品搜索排序策略的学习,在实现的过程中,我们一步一步完成了从简单问题到复杂问题的过渡,包括:

Agent给出商品排序,用户根据排序的结果进行的浏览、商品点击或购买等行为都可以看成对Agent的排序策略的直接反馈。在第四章中,我们将利用奖赏塑形(RewardShaping)方法对奖赏函数的表达进行丰富,提高不同排序策略在反馈信号上的区分度。

由于篇幅有限,我们仅对强化学习在搜索中的使用给出2个实例。

(1)Tabular方法

具体地,当用户进行了搜索后,根据用户的状态s,和Q表(下图)进行一个epsilon-greedy的投放,选择一个动作a(上文中的价格指数t),执行这个a的排序结果展示给用户,并记录下这次的状态s与动作a,以及用户对这次搜索结果的反馈r,从用户的点击与否的反馈,再对Q表进行更新。

根据Q-Learning公式进行权重更新。

接下来,由于用户点击了某商品,他的状态发生了转移,就找到对应的状态继续进行epsilon-greedy的投放。再继续进行学习,直到收敛。

(2)DDPG方法

例如一个线性排序模型,f(x│w)=w^Tx,x∈R^m,x是m维的特征向量,我们学习每个用户状态s的最优参数w,即π(s)→w^*。这种假设需要使用策略估计的方法。策略估计(PolicyApproximation)方法是解决连续状态/动作空间问题的有效方法之一。其主要思想是用参数化的函数对策略进行表达,通过优化参数来完成策略的学习。通常,这种参数化的策略函数被称为Actor。假设我们一共调控m(m≥0)个维度的排序权重,对于任意状态s∈S,Actor对应的输出为:

其中,θ为Actor的参数,对于任意i(1≤i≤m),μ_θ^i(s)是关于状态的一个函数,代表第i维的排序权重分,其形式可根据实际情况而定,我们的方案采用深度神经网络作为Actor函数。这种方式在不同的状态之间可以通过神经网络来共享一些参数权重。

强化学习的目标是最大化任意状态s上的长期累积奖赏,根据策略梯度定理,Actor函数的参数θ的更新公式可以写为:

其中,_θμ_θ(s)为Actor神经网络在状态s上关于θ的梯度,Q^μ(s,a)为状态动作对(State-ActionPair)(s,a)的长期累积奖赏。因为s和a都是连续的数值,我们采用深度神经网络作为估计器对Q^μ(s,a)进行学习,具体的学习算法可参考深度Q学习算法DQN[1]。

在进行强化学习方案的同时,我们用PointwiseLTR进行了一些对比实验,发现PointwiseLTR这种直接在商品特征上进行学习的方式在求取策略梯度的时候,能够将不同排序策略更为显著地区分开。参照这个思路,我们将商品的一些属性特征加入到奖赏函数的定义中,通过奖赏塑形(RewardShaping)的方法[2,3]丰富其包含的信息量。

奖赏塑形的思想是在原有的奖赏函数中引入一些先验的知识,加速强化学习算法的收敛。简单地,我们可以将“在状态s上选择动作a,并转移到状态s'”的奖赏值定义为:

其中,R_0(s,a,s')为原始定义的奖赏函数,Φ(s)为包含先验知识的函数,也被称为势函数(PotentialFunction)。我们可以把势函数Φ(s)理解学习过程中的子目标(LocalObjective)。根据上面的讨论,我们把每个状态对应PV的商品信息纳入Reward的定义中,将势函数Φ(s)定义为:

其中,K为状态s对应PV中商品的个数,i表示的第i个商品,μ_θ(s)为Agent在状态s执行的动作,L(i│μ_θ(s))表示排序策略为μ_θ时商品的点击(或成交)的似然(Likelihood)。因此,Φ(s)也就表示在状态s上执行动作μ_θ(s)时,PV中所有商品能够被点击(或购买)的似然概率之和。

可以看到,从11月10日18:00启动开始,每个桶上的RNEU开始逐渐下降。到当天20:00之后,下降趋势变得比较缓和,说明学习算法在逐步往最优策略进行逼近。但过了11月11日0点之后,每个桶对应的RNEU指标都出现了陡然上升的情况,这是因为0点前后用户的行为发生了急剧变化,导致线上数据分布在0点以后与0点之前产生较大差别。相应地,学习算法获取到新的reward信号之后,也会做出适应性地调整。

由于2016年双11首图宝贝素材总量在百万张且坑位数上百,我们会根据楼层的次序对参与打分的候选集进行配额,根据楼层的实时点击率分配楼层的打分量。在各类业务以及填坑逻辑及调控流量的限制下,推荐结果并不一定能按照原有的打分高低进行展示。因此,我们需要考虑打分宝贝数与工程实现上的平衡关系。由于主会场的QPS高达数万,一味地增大打分量是不可取的。为了解决这一问题,我们在初选的match召回方式上做了大量的努力,如提升用户的多重兴趣覆盖、增大有效的候选宝贝。

根据在2015双11的一些经验并结合2016年双11前期的系统压测情况,在2016年双11主会场我们采用了素材模型驱动的模式。从个性化推荐算法的角度来说,我们在2016年双11主会场尝试了多种新颖的排序模型,并做了严格的效果对比。具体的排序模型涉及LR、FTRL、GBDT+FTRL融合模型以及WIDE&DEEP模型,同时为了克服datadrift的波动在日常的首图场景还尝试了Adaptive-Online-Learning的算法,以及尝试了强化学习的思路。在后面的章节,会从算法层面逐一阐释。

采用非线性模型学习intermediatefeature,作为IDfeature和crossfeature的补充,最终输入到线性model来做CTR预估,最早是由Facebook提出的,思路大致如下:采用rawfeatures(一般是统计类特征)训练出GBDT模型,获得的所有树的所有叶子节点就是它能够generate出来的特征空间,当每个样本点经过GBDT模型的每一个树时,会落到一个叶子节点,即产生了一个中间特征,所有这些中间特征会配合其他ID类特征以及人肉交叉的特征一起输入到LR模型来做CTR预估。显然,GBDT模型很擅长发掘有区分度的特征,而从根到叶子节点的每一条路径体现了特征组合。对比手工的离散化和特征交叉,模型显然更擅长挖掘出复杂模式,获得更好的效果。我们通过GBDT来做特征挖掘,并最终与FTRL模型融合的方案如下图:

输入到GBDT的特征非常关键,这些特征决定了最终产出的中间特征是否有效。我们有一套灵活的特征生成流程,可以方便做各种维度的特征提取以及交叉统计。GBDT+FTRL中主要用到的特征包含两部分:第一部分是用户/宝贝ID与对方泛化维度交叉统计的特征,包含各种基础行为的次数以及CTR等。

借鉴Google今年在深度学习领域的论文《Wide&DeepLearningforRecommenderSystems》中所提到的Wide&DeepLearning框架(以下简称为WDL),并将其结合基于搜索事业部自研的机器学习平台的在线学习技术,我们研发了一套适用于推荐业务的WDL模型算法。下文将会对这一技术进行详述。

WDL模型的原理框架如上图所示:它将深度神经网络(DNN)网络和逻辑回归(LogisticRegression)模型并置在同一个网络中,并且将离散型特征(CategoricalFeature)和连续型特征(ContinuousFeature)有机地结合在一起。WDL模型主要由wide侧和deep侧组成。Wide侧通过特征交叉来学习特征间的共现,而deep侧通过将具有泛化能力的离散型特征进行特征嵌入(embedding),和连续型特征一起作为深度神经网络的输入(可以认为是一种特殊的深度神经网络,在网络的最后一层加入了大量的0/1节点),从理论上来说,我们可以把deep侧看作传统矩阵分解(matrixfactorization)的一种泛化实现,值得注意的是特征嵌入的函数是和网络中其他参数通过梯度反向传播共同学习得到。模型的预测值采用如下公式进行计算:

相比对每个推荐场景单独进行个性化推荐的策略,基于强化学习框架(ReinforcementLearning)的推荐系统根据全链路的数据进行整合,同时响应多个异构场景的推荐请求。下图中我们对手机淘宝(天猫)客户端的数据/流量通路进行抽象:每个圆圈代表一个独立的手淘场景,E代表用户在该场景随时离开,箭头代表流量可能地流动方向。

基于以上的数据通路图,我们可以很自然地将全链路多场景的推荐任务理解为一个连续的决策问题:作为一个智能决策者(agent),推荐系统需要持续不断地决定应该为用户推荐怎样的内容(比如,商品、店铺、品牌以及活动)。强化学习正是一种对智能决策者进行建模的最佳方式:通过对智能决策者短期状态的变化进行递归式建模,最终引导其渐进式地优化长期目标。

通过等式(7),我们可以迭代计算对无偏估计值进行求解。实际情况中用户必然会因为推荐商品的组合问题产生更复杂的行为,这样一来必然导致累积奖励独立计算的假设不成立。但以此为本,我们可以推导出基于更复杂假设下的计算累积奖励估计量的递归公式。

参考文献

[1]Mnih,V.,Kavukcuoglu,K.,Silver,D.,Graves,A.,Antonoglou,I.,Wierstra,D.,Riedmiller,M.A.,Playingatariwithdeepreinforcementlearning.CoRRabs/1312.5602,2013.

[2]A.Y.Ng,D.Harada,andS.J.Russell.Policyinvarianceunderrewardtransformations:Theoryandapplicationtorewardshaping.InProceedingsofthe16thInternationalConferenceonMachineLearning,pages278–287,1999

[3]E.Wiewiora.Potential-basedshapingandQ-valueinitializationareequivalent.JournalofArtificialIntelligenceResearch,19(1):205–208,2003

THE END
1.在线学习管理系统:重塑教育未来的创新工具随着互联网技术的飞速发展,教育领域正经历着前所未有的变革。在线学习管理系统作为这一变革的重要推手,正逐步成为教育行业不可或缺的一部分。本文将全面解析在线学习管理系统的内涵、优势、功能及应用场景,为您揭示这一创新工具如何重塑教育未来。 一、在线学习管理系统的内涵 https://www.pbids.com/aboutUs/pbidsNews/1861300265132593152
2.在线教育背景下学生学习方式研究在线教育背景下的学习方式是与传统线下面对面学习不同的新型学习方式,在线学习突破了时间、地点、年龄等各种局限,在很大程度上开阔了学习者的视野,促进了知识的流通。在线教育对学习者的各个方面都有着很大的影响,因此对在线教育背景下的学习方式进行系统、全面的研究对相关理论与实践都有着一定的借鉴意义。本文的绪论https://wap.cnki.net/lunwen-1018212043.html
3.开放性研究”项目方案》《长宁区高中“线上线下混合式学习背景现将《长宁区幼儿园“童趣4+X活动”项目方案》《长宁区小学“家校社共育3+3计划”项目方案》《长宁区初中“新中考背景下作业开放性研究”项目方案》《长宁区高中“线上线下混合式学习背景下高中生自主学习平台建设”项目方案》印发给你们,请认真学习,并根据本单位实际落实相关工作。 https://zwgk.shcn.gov.cn/xxgk/jyky-jyxx/2022/267/54915.html
4.基于springboot的在线学习平台课题背景研究思路背景: 随着互联网技术的发展,在线学习平台成为了学习者获取知识和技能的重要途径。传统的课堂教学存在时间和空间限制,而在线学习平台可以打破这些限制,提供更加灵活和便捷的学习方式。基于springboot的在线学习平台可以通过快速开发和部署,为学习者和教育机构提供高效的学习和教学服务。 https://blog.csdn.net/aicood/article/details/135727212
5.第一讲免费在线预览全文 第一讲-研究背景与研究内容.ppt 问题与讨论(8) 由于WEB技术是设计WEB学习环境的最直接、最有力的支撑基础,所以人们在WEB学习环境设计中,有一种只重技术不重学习效果的倾向。设计出来的学习环境,堆砌了各种技术模块,而支持学习和教学的策略则考虑不多。 其实,这并不是一个新问题,在计算机技术和https://mip.book118.com/html/2018/1026/5140033132001323.shtm
6.毕业设计之python系列基于Flask的在线学习笔记的设计与实现1.1 研究背景和意义 随着互联网技术的不断发展和普及,人们的学习方式和教学方式也在不断变化。传统的教学方式主要依靠课堂授课和纸质笔记,但这种方式存在着很多问题,例如学生的笔记难以整理和管理,教师的教学内容难以及时更新和补充等。因此,越来越多的人开始关注在线学习笔记系统,希望通过这种方式来提高学习效率和教学质https://developer.aliyun.com/article/1260442
7.信息化背景下家校协作助力农村小学生英语核心素养培养研究综上,信息化背景下,家校协作助力农村小学生英语核心素养的培养具有重要意义。通过合理应用信息化手段,如在线学习资源、互动交流和创造有趣的学习环境,可以提升农村小学生的英语学习效果,培养他们的核心素养,为他们未来的发展打下坚实的基础。家庭和学校共同努力,必将为农村小学生的英语教育带来积极的变革。 https://www.qxnrb.com/ipaper/qxnrb/html/2024-01/08/content_302.htm
8.[量化]万字综述,94篇论文分析股市预测的深度学习技术最近的研究[ 47,95,162]表明,将自监督学习任务合并到分类任务中可以导致更好的泛化。通过探索现有的和开发新的、实用的股票市场预测方法来填补这个空白是值得的。在这种情况下,一种提高泛化能力的自监督方法有望在未来得到探索。 结合在线学习和深度学习方法http://www.360doc.com/content/23/0519/03/1081259395_1081259395.shtml
9.“在线与在校——面向未来的混合式教学与教研”云端研讨为探索常态的线上线下相结合的混合式学习方式,分享各地教研机构和学校混合式教学与教研的实践探索和研究成果,2020年4月29日,“在线与在校——面向未来的混合式教学与教研”研讨会在线上成功召开。会议由中国教育学会主办,中国教育学会初中教育专业委员会、北京市海淀区教师进修学校承办,中国教研网提供技术平台支持。本次https://www.hdjx.org.cn/plus/view.php?aid=9279
10.《数字化校园环境下促进学生个性发展的实践研究》我们进一步学习了《2012地平线报告》、《智慧教育:教育信息化的新境界》、《在线教育颠覆教育的基础:翻转课堂》、《移动学习研究现状》、《iPad平板电脑真能取代传统书包吗?》、《电子书包调查》等书籍和文献,意识到:移动设备的普及渐成趋势,既然阻挡不了新生代的学生使用这些设备,不如反堵为导,让学生将这些“口袋http://www.yhtzx.net/glzc/xxjsc/yyyyj/cms/post-270372
11.范慧杰研究项目: 1) 基于在线学习的弱标注医学影像病灶诊断算法研究 经费来源:国家自然科学基金; 2019-2022; 项目负责人 2) 复杂背景下自动目标识别(国家重大研究计划项目课题) 经费来源:国家科技部; 2019-2021; 课题负责人 3) 图像复原与目标识别定位(国家重大研究计划项目课题) http://www.sia.cas.cn/vision/kytd/yjry/202307/t20230726_6834850.html
12.数据挖掘论文在当今大数据的时代背景下,中医固有的传统整体论科学特征有了越来越多的可供改变的空间。这种变化既为其按照自身特有的规律发展特点带来了机遇,也给未来中医理论的发展提出了挑战。同时,学习医案研究也是中医学相关大学生们应该学习的一项内容。阅读医案是必要的训练,也是中医入门的方法之一。医案的故事性引人入胜,在自https://www.unjs.com/lunwen/f/20220924130749_5650839.html