第七章人工智能,7.1基于深度强化学习与自适应在线学习的搜索和推荐算法研究(作者:灵培霹雳哲予)jiapeng

淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性。因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题。传统的LearningtoRank(LTR)方法主要是在商品维度进行学习,根据商品的点击、成交数据构造学习样本,回归出排序权重。LTR学习的是当前线上已经展示出来商品排序的现象,对已出现的结果集合最好的排序效果,受到了本身排序策略的影响,我们有大量的样本是不可见的,所以LTR模型从某种意义上说是解释了过去现象,并不一定真正全局最优的。针对这个问题,有两类的方法,其中一类尝试在离线训练中解决online和offline不一致的问题,衍生出CounterfacturalMachineLearning的领域。另外一类就是在线trial-and-error进行学习,如BanditLearning和ReinforcementLearning。

在之前我们尝试了用多臂老.虎.机.模型(Multi-ArmedBandit,MAB)来根据用户反馈学习排序策略,结合exploration与exploitation,收到了较好的效果。

后来更进一步,在原来的基础上引入状态的概念,用马尔可夫决策过程对商品搜索排序问题进行建模,并尝试用深度强化学习的方法来对搜索引擎的排序策略进行实时调控。

实际上,如果把搜索引擎看作智能体(Agent)、把用户看做环境(Environment),则商品的搜索问题可以被视为典型的顺序决策问题。Agent每一次排序策略的选择可以看成一次试错(Trial-and-Error),把用户的反馈,点击成交等作为从环境获得的奖赏。在这种反复不断地试错过程中,Agent将逐步学习到最优的排序策略,最大化累计奖赏。而这种在与环境交互的过程中进行试错的学习,正是强化学习(ReinforcementLearning,RL)的根本思想。

本文接下来的内容将对具体的方案进行详细介绍。

我们的最终目标是用强化学习进行商品搜索排序策略的学习,在实现的过程中,我们一步一步完成了从简单问题到复杂问题的过渡,包括:

Agent给出商品排序,用户根据排序的结果进行的浏览、商品点击或购买等行为都可以看成对Agent的排序策略的直接反馈。在第四章中,我们将利用奖赏塑形(RewardShaping)方法对奖赏函数的表达进行丰富,提高不同排序策略在反馈信号上的区分度。

由于篇幅有限,我们仅对强化学习在搜索中的使用给出2个实例。

(1)Tabular方法

具体地,当用户进行了搜索后,根据用户的状态s,和Q表(下图)进行一个epsilon-greedy的投放,选择一个动作a(上文中的价格指数t),执行这个a的排序结果展示给用户,并记录下这次的状态s与动作a,以及用户对这次搜索结果的反馈r,从用户的点击与否的反馈,再对Q表进行更新。

根据Q-Learning公式进行权重更新。

接下来,由于用户点击了某商品,他的状态发生了转移,就找到对应的状态继续进行epsilon-greedy的投放。再继续进行学习,直到收敛。

(2)DDPG方法

例如一个线性排序模型,f(x│w)=w^Tx,x∈R^m,x是m维的特征向量,我们学习每个用户状态s的最优参数w,即π(s)→w^*。这种假设需要使用策略估计的方法。策略估计(PolicyApproximation)方法是解决连续状态/动作空间问题的有效方法之一。其主要思想是用参数化的函数对策略进行表达,通过优化参数来完成策略的学习。通常,这种参数化的策略函数被称为Actor。假设我们一共调控m(m≥0)个维度的排序权重,对于任意状态s∈S,Actor对应的输出为:

其中,θ为Actor的参数,对于任意i(1≤i≤m),μ_θ^i(s)是关于状态的一个函数,代表第i维的排序权重分,其形式可根据实际情况而定,我们的方案采用深度神经网络作为Actor函数。这种方式在不同的状态之间可以通过神经网络来共享一些参数权重。

强化学习的目标是最大化任意状态s上的长期累积奖赏,根据策略梯度定理,Actor函数的参数θ的更新公式可以写为:

其中,_θμ_θ(s)为Actor神经网络在状态s上关于θ的梯度,Q^μ(s,a)为状态动作对(State-ActionPair)(s,a)的长期累积奖赏。因为s和a都是连续的数值,我们采用深度神经网络作为估计器对Q^μ(s,a)进行学习,具体的学习算法可参考深度Q学习算法DQN[1]。

在进行强化学习方案的同时,我们用PointwiseLTR进行了一些对比实验,发现PointwiseLTR这种直接在商品特征上进行学习的方式在求取策略梯度的时候,能够将不同排序策略更为显著地区分开。参照这个思路,我们将商品的一些属性特征加入到奖赏函数的定义中,通过奖赏塑形(RewardShaping)的方法[2,3]丰富其包含的信息量。

奖赏塑形的思想是在原有的奖赏函数中引入一些先验的知识,加速强化学习算法的收敛。简单地,我们可以将“在状态s上选择动作a,并转移到状态s'”的奖赏值定义为:

其中,R_0(s,a,s')为原始定义的奖赏函数,Φ(s)为包含先验知识的函数,也被称为势函数(PotentialFunction)。我们可以把势函数Φ(s)理解学习过程中的子目标(LocalObjective)。根据上面的讨论,我们把每个状态对应PV的商品信息纳入Reward的定义中,将势函数Φ(s)定义为:

其中,K为状态s对应PV中商品的个数,i表示的第i个商品,μ_θ(s)为Agent在状态s执行的动作,L(i│μ_θ(s))表示排序策略为μ_θ时商品的点击(或成交)的似然(Likelihood)。因此,Φ(s)也就表示在状态s上执行动作μ_θ(s)时,PV中所有商品能够被点击(或购买)的似然概率之和。

可以看到,从11月10日18:00启动开始,每个桶上的RNEU开始逐渐下降。到当天20:00之后,下降趋势变得比较缓和,说明学习算法在逐步往最优策略进行逼近。但过了11月11日0点之后,每个桶对应的RNEU指标都出现了陡然上升的情况,这是因为0点前后用户的行为发生了急剧变化,导致线上数据分布在0点以后与0点之前产生较大差别。相应地,学习算法获取到新的reward信号之后,也会做出适应性地调整。

由于2016年双11首图宝贝素材总量在百万张且坑位数上百,我们会根据楼层的次序对参与打分的候选集进行配额,根据楼层的实时点击率分配楼层的打分量。在各类业务以及填坑逻辑及调控流量的限制下,推荐结果并不一定能按照原有的打分高低进行展示。因此,我们需要考虑打分宝贝数与工程实现上的平衡关系。由于主会场的QPS高达数万,一味地增大打分量是不可取的。为了解决这一问题,我们在初选的match召回方式上做了大量的努力,如提升用户的多重兴趣覆盖、增大有效的候选宝贝。

根据在2015双11的一些经验并结合2016年双11前期的系统压测情况,在2016年双11主会场我们采用了素材模型驱动的模式。从个性化推荐算法的角度来说,我们在2016年双11主会场尝试了多种新颖的排序模型,并做了严格的效果对比。具体的排序模型涉及LR、FTRL、GBDT+FTRL融合模型以及WIDE&DEEP模型,同时为了克服datadrift的波动在日常的首图场景还尝试了Adaptive-Online-Learning的算法,以及尝试了强化学习的思路。在后面的章节,会从算法层面逐一阐释。

采用非线性模型学习intermediatefeature,作为IDfeature和crossfeature的补充,最终输入到线性model来做CTR预估,最早是由Facebook提出的,思路大致如下:采用rawfeatures(一般是统计类特征)训练出GBDT模型,获得的所有树的所有叶子节点就是它能够generate出来的特征空间,当每个样本点经过GBDT模型的每一个树时,会落到一个叶子节点,即产生了一个中间特征,所有这些中间特征会配合其他ID类特征以及人肉交叉的特征一起输入到LR模型来做CTR预估。显然,GBDT模型很擅长发掘有区分度的特征,而从根到叶子节点的每一条路径体现了特征组合。对比手工的离散化和特征交叉,模型显然更擅长挖掘出复杂模式,获得更好的效果。我们通过GBDT来做特征挖掘,并最终与FTRL模型融合的方案如下图:

输入到GBDT的特征非常关键,这些特征决定了最终产出的中间特征是否有效。我们有一套灵活的特征生成流程,可以方便做各种维度的特征提取以及交叉统计。GBDT+FTRL中主要用到的特征包含两部分:第一部分是用户/宝贝ID与对方泛化维度交叉统计的特征,包含各种基础行为的次数以及CTR等。

借鉴Google今年在深度学习领域的论文《Wide&DeepLearningforRecommenderSystems》中所提到的Wide&DeepLearning框架(以下简称为WDL),并将其结合基于搜索事业部自研的机器学习平台的在线学习技术,我们研发了一套适用于推荐业务的WDL模型算法。下文将会对这一技术进行详述。

WDL模型的原理框架如上图所示:它将深度神经网络(DNN)网络和逻辑回归(LogisticRegression)模型并置在同一个网络中,并且将离散型特征(CategoricalFeature)和连续型特征(ContinuousFeature)有机地结合在一起。WDL模型主要由wide侧和deep侧组成。Wide侧通过特征交叉来学习特征间的共现,而deep侧通过将具有泛化能力的离散型特征进行特征嵌入(embedding),和连续型特征一起作为深度神经网络的输入(可以认为是一种特殊的深度神经网络,在网络的最后一层加入了大量的0/1节点),从理论上来说,我们可以把deep侧看作传统矩阵分解(matrixfactorization)的一种泛化实现,值得注意的是特征嵌入的函数是和网络中其他参数通过梯度反向传播共同学习得到。模型的预测值采用如下公式进行计算:

相比对每个推荐场景单独进行个性化推荐的策略,基于强化学习框架(ReinforcementLearning)的推荐系统根据全链路的数据进行整合,同时响应多个异构场景的推荐请求。下图中我们对手机淘宝(天猫)客户端的数据/流量通路进行抽象:每个圆圈代表一个独立的手淘场景,E代表用户在该场景随时离开,箭头代表流量可能地流动方向。

基于以上的数据通路图,我们可以很自然地将全链路多场景的推荐任务理解为一个连续的决策问题:作为一个智能决策者(agent),推荐系统需要持续不断地决定应该为用户推荐怎样的内容(比如,商品、店铺、品牌以及活动)。强化学习正是一种对智能决策者进行建模的最佳方式:通过对智能决策者短期状态的变化进行递归式建模,最终引导其渐进式地优化长期目标。

通过等式(7),我们可以迭代计算对无偏估计值进行求解。实际情况中用户必然会因为推荐商品的组合问题产生更复杂的行为,这样一来必然导致累积奖励独立计算的假设不成立。但以此为本,我们可以推导出基于更复杂假设下的计算累积奖励估计量的递归公式。

参考文献

[1]Mnih,V.,Kavukcuoglu,K.,Silver,D.,Graves,A.,Antonoglou,I.,Wierstra,D.,Riedmiller,M.A.,Playingatariwithdeepreinforcementlearning.CoRRabs/1312.5602,2013.

[2]A.Y.Ng,D.Harada,andS.J.Russell.Policyinvarianceunderrewardtransformations:Theoryandapplicationtorewardshaping.InProceedingsofthe16thInternationalConferenceonMachineLearning,pages278–287,1999

[3]E.Wiewiora.Potential-basedshapingandQ-valueinitializationareequivalent.JournalofArtificialIntelligenceResearch,19(1):205–208,2003

THE END
1.停课不停学线上学习情况研究报告(通用10篇)停课不停学线上学习情况研究报告5 经过两天的在线教学运行,发现了很多线上授课的优点和缺点。优点是:线上课程资源丰富;学生参与度透明化。缺点是:学生上课有时有卡顿现象,很难顾及到每位同学的实际情况。针对这些线上授课的优缺点,本着一心服务学生的初衷,充分利用线上资源的优势,竭尽解决线上授课的不足。本人结合https://www.unjs.com/fanwenku/311279.html
2.易学习在线,数字化高效学习路径的探索技术服务易学习在线致力于探索高效学习的数字化路径。通过结合现代科技,提供丰富的学习资源和工具,帮助学习者随时随地获取知识,提升学习效率。致力于创新教学方式,让学习变得更加便捷、高效。 易学习在线的核心特点 易学习在线以其丰富的教育资源、个性化的学习体验、强大的互动功能以及高度的灵活性,成为数字化教育的新宠。 https://m.ahsanfangjs.com/post/22849.html
3.探究在线教育.pptx在线教育的发展趋势在线教育:历史与未来学习活动的数字化数字技术在教育中的应用基于互联网的教学通过网络实现教与学的互动非传统学习形式与传统面对面教学不同的学习方式灵活的学习体验灵活安排学习时间和地点定义和解释在线教育的概念在线教育的定义了解在线教育的起源互联网的普及加速了在线教育的发展网络技术的崛起在线https://www.renrendoc.com/paper/370515726.html
4.网上读研是真的吗?职场人士的福音!网上读研当然是真的,通过网络教育或在线学习的形式进行研究生教育,已经逐渐成为国内外教育领域的一种趋势,非常适合没什么时间的在职人士,周末远程在线上课,感兴趣的朋友赶紧来了解一下吧! 一、网上读研的国内外实践 1.国外实践 在美国、英国等发达国家,网上读研已经成为了一种主流的教育方式。https://www.kyzs.com/article/26887.html
5.教师支持对在线学习者自我调节学习的影响研究澎湃号·政务2020年以来,在线学习更是成为全国范围内各学段教育实施“停课不停学”的主要途径。与传统学习方式相比,在线学习具有明显的自主性、弱控性特征,其过程突出强调学习者的自我调节[1]。因此,整合学习者认知、动机和情感等多要素的自我调节学习(self-regulated learning)成为近年来在线学习研究的热点。https://www.thepaper.cn/newsDetail_forward_15898407
6.西安电子科技大学研究生院总体而言,本课程坚守培养“跨行业领军人才”初心,能够提升“零基础”学生的领导力学习体验,并为各类学习者获得领导力知识,并塑造领导力思维和综合能力提供帮助。 校内在线课程 MORE 论文写作指导 MORE 教学案例 MORE 报告讲座 出版教材 西安电子科技大学研究生院https://xidianyjs.yuketang.cn/
7.在线学习系统oTraining在线学习系统的应用范围:政府机关 1. 平台能满足多级用户并发;2. 能解决大规模学习的技术瓶颈;3. 能实现在全国范围内快速访问;4. 可支持各种数据跨平台迁移;5. 支持多种标准和非标准课件格式;6. 可实施多级下属单位的管理机制;教育系统 1. 为院校决策研究提供服务,是各类优质教育资源的服务平台;https://baike.baidu.com/item/%E5%9C%A8%E7%BA%BF%E5%AD%A6%E4%B9%A0%E7%B3%BB%E7%BB%9F/3289235
8.大学生学习投入学习时间及学习效果的比较研究——基于F省高校清华大学课题组调查其本校学生发现:2020年春季学期在线教学的效果达到预期;学生的学习行为虽出现细微变化但总体可控;在线教学面临朋辈互动不足、学习专注力不够、学习效率低、教学互动效果不佳等挑战。同时,有研究从学生自主学习能力、师生的教学(学习)投入等方面探究在线教学质量的影响因素。https://gjs.ncist.edu.cn/gjzx/gjyj/a5cce8d696a04961a3578a9facd7c1f7.htm
9.中国青年报:中美日韩高中生在线学习比较研究报告媒体视角在教育信息化背景下对中美日韩四国高中生的学习进行比较,发现各国高中生在线学习的异同,可以为高中生未来的学习发展提供参考。中国青少年研究中心联合美国、日本、韩国的研究机构,于2019年9月-11月开展“互联网时代中美日韩四国高中生学习比较研究”,探讨互联网时代各国高中生学习发生的变化,重点对各国高中生在线学习进行http://jyt.shaanxi.gov.cn/jynews/mtsj/202005/14/102053.html
10.基于知识图谱的在线学习资源个性化推荐研究基于知识图谱的在线学习资源个性化推荐研究,知识图谱,个性化推荐,在线学习,本体,学习者画像,信息技术和互联网的高速发展使人们获得了前所未有的自由信息空间,每个人都是信息的获取者,也是信息的生产者,这也使得信息处于大爆https://wap.cnki.net/lunwen-1020966480.html
11.在线教学平台学习者参与方式研究前沿领域综上所述,现有学生参与研究存在测量方法不理想、缺乏理论基础等问题,且国内较少有学者应用ICAP框架探讨学生参与。根据ICAP框架,在线教学平台中学习者的各类学习行为(如观看视频、完成作业、参与讨论、线上测试等),可以根据其潜在的认知过程被划分为不同的参与方式,从而实现对学习者学习行为、参与方式和学习成果等的描述https://www.eduwest.com/html/2021/qianyanlingyu_0908/610.html
12.在线学习力:结构特征及影响因素然而,由于在线学习准时空分离特性,学习者易产生孤独、无助等情绪,实际学习效果尚未达到预期。探究远程学习者的在线学习力,辨析学习的内在机制与规律,可帮助学习者克服消极体验,提升学习水平,实现可持续发展。本研究首先通过理论研究,提出包含内驱力、认识力、意志力以及应用力四个维度的在线学习力理论框架,而后开展问卷https://maimai.cn/article/detail?fid=1527297080&efid=XUDmn34HY91HTKNshubb-A