第七章人工智能，7.1基于深度强化学习与自适应在线学习的搜索和推荐算法研究(作者：灵培霹雳哲予)jiapeng|在线学习研究_在线学习

淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应，而淘宝的用户不仅数量巨大，其行为特点以及对商品的偏好也具有丰富性和多样性。因此，要让搜索引擎对不同特点的用户作出针对性的排序，并以此带动搜索引导的成交提升，是一个极具挑战性的问题。传统的LearningtoRank（LTR）方法主要是在商品维度进行学习，根据商品的点击、成交数据构造学习样本，回归出排序权重。LTR学习的是当前线上已经展示出来商品排序的现象，对已出现的结果集合最好的排序效果，受到了本身排序策略的影响，我们有大量的样本是不可见的，所以LTR模型从某种意义上说是解释了过去现象，并不一定真正全局最优的。针对这个问题，有两类的方法，其中一类尝试在离线训练中解决online和offline不一致的问题，衍生出CounterfacturalMachineLearning的领域。另外一类就是在线trial-and-error进行学习，如BanditLearning和ReinforcementLearning。

在之前我们尝试了用多臂老.虎.机.模型（Multi-ArmedBandit，MAB）来根据用户反馈学习排序策略，结合exploration与exploitation，收到了较好的效果。

后来更进一步，在原来的基础上引入状态的概念，用马尔可夫决策过程对商品搜索排序问题进行建模，并尝试用深度强化学习的方法来对搜索引擎的排序策略进行实时调控。

实际上，如果把搜索引擎看作智能体（Agent）、把用户看做环境（Environment），则商品的搜索问题可以被视为典型的顺序决策问题。Agent每一次排序策略的选择可以看成一次试错（Trial-and-Error），把用户的反馈，点击成交等作为从环境获得的奖赏。在这种反复不断地试错过程中，Agent将逐步学习到最优的排序策略，最大化累计奖赏。而这种在与环境交互的过程中进行试错的学习，正是强化学习（ReinforcementLearning，RL）的根本思想。

本文接下来的内容将对具体的方案进行详细介绍。

我们的最终目标是用强化学习进行商品搜索排序策略的学习，在实现的过程中，我们一步一步完成了从简单问题到复杂问题的过渡，包括：

Agent给出商品排序，用户根据排序的结果进行的浏览、商品点击或购买等行为都可以看成对Agent的排序策略的直接反馈。在第四章中，我们将利用奖赏塑形（RewardShaping）方法对奖赏函数的表达进行丰富，提高不同排序策略在反馈信号上的区分度。

由于篇幅有限，我们仅对强化学习在搜索中的使用给出2个实例。

（1）Tabular方法

具体地，当用户进行了搜索后，根据用户的状态s，和Q表（下图）进行一个epsilon-greedy的投放，选择一个动作a（上文中的价格指数t），执行这个a的排序结果展示给用户，并记录下这次的状态s与动作a，以及用户对这次搜索结果的反馈r，从用户的点击与否的反馈，再对Q表进行更新。

根据Q-Learning公式进行权重更新。

接下来，由于用户点击了某商品，他的状态发生了转移，就找到对应的状态继续进行epsilon-greedy的投放。再继续进行学习，直到收敛。

（2）DDPG方法

例如一个线性排序模型，f(x│w)=w^Tx,x∈R^m，x是m维的特征向量，我们学习每个用户状态s的最优参数w，即π(s)→w^*。这种假设需要使用策略估计的方法。策略估计（PolicyApproximation）方法是解决连续状态/动作空间问题的有效方法之一。其主要思想是用参数化的函数对策略进行表达，通过优化参数来完成策略的学习。通常，这种参数化的策略函数被称为Actor。假设我们一共调控m（m≥0）个维度的排序权重，对于任意状态s∈S，Actor对应的输出为：

其中，θ为Actor的参数，对于任意i（1≤i≤m），μ_θ^i(s)是关于状态的一个函数，代表第i维的排序权重分，其形式可根据实际情况而定，我们的方案采用深度神经网络作为Actor函数。这种方式在不同的状态之间可以通过神经网络来共享一些参数权重。

强化学习的目标是最大化任意状态s上的长期累积奖赏，根据策略梯度定理，Actor函数的参数θ的更新公式可以写为：

其中，_θμ_θ(s)为Actor神经网络在状态s上关于θ的梯度，Q^μ(s,a)为状态动作对（State-ActionPair）(s,a)的长期累积奖赏。因为s和a都是连续的数值，我们采用深度神经网络作为估计器对Q^μ(s,a)进行学习，具体的学习算法可参考深度Q学习算法DQN[1]。

在进行强化学习方案的同时，我们用PointwiseLTR进行了一些对比实验，发现PointwiseLTR这种直接在商品特征上进行学习的方式在求取策略梯度的时候，能够将不同排序策略更为显著地区分开。参照这个思路，我们将商品的一些属性特征加入到奖赏函数的定义中，通过奖赏塑形（RewardShaping）的方法[2,3]丰富其包含的信息量。

奖赏塑形的思想是在原有的奖赏函数中引入一些先验的知识，加速强化学习算法的收敛。简单地，我们可以将“在状态s上选择动作a，并转移到状态s'”的奖赏值定义为：

其中，R_0(s,a,s')为原始定义的奖赏函数，Φ(s)为包含先验知识的函数，也被称为势函数（PotentialFunction）。我们可以把势函数Φ(s)理解学习过程中的子目标（LocalObjective）。根据上面的讨论，我们把每个状态对应PV的商品信息纳入Reward的定义中，将势函数Φ(s)定义为：

其中，K为状态s对应PV中商品的个数，i表示的第i个商品，μ_θ(s)为Agent在状态s执行的动作，L(i│μ_θ(s))表示排序策略为μ_θ时商品的点击（或成交）的似然（Likelihood）。因此，Φ(s)也就表示在状态s上执行动作μ_θ(s)时，PV中所有商品能够被点击（或购买）的似然概率之和。

可以看到，从11月10日18:00启动开始，每个桶上的RNEU开始逐渐下降。到当天20:00之后，下降趋势变得比较缓和，说明学习算法在逐步往最优策略进行逼近。但过了11月11日0点之后，每个桶对应的RNEU指标都出现了陡然上升的情况，这是因为0点前后用户的行为发生了急剧变化，导致线上数据分布在0点以后与0点之前产生较大差别。相应地，学习算法获取到新的reward信号之后，也会做出适应性地调整。

由于2016年双11首图宝贝素材总量在百万张且坑位数上百，我们会根据楼层的次序对参与打分的候选集进行配额，根据楼层的实时点击率分配楼层的打分量。在各类业务以及填坑逻辑及调控流量的限制下，推荐结果并不一定能按照原有的打分高低进行展示。因此，我们需要考虑打分宝贝数与工程实现上的平衡关系。由于主会场的QPS高达数万，一味地增大打分量是不可取的。为了解决这一问题，我们在初选的match召回方式上做了大量的努力，如提升用户的多重兴趣覆盖、增大有效的候选宝贝。

根据在2015双11的一些经验并结合2016年双11前期的系统压测情况，在2016年双11主会场我们采用了素材模型驱动的模式。从个性化推荐算法的角度来说，我们在2016年双11主会场尝试了多种新颖的排序模型，并做了严格的效果对比。具体的排序模型涉及LR、FTRL、GBDT+FTRL融合模型以及WIDE&DEEP模型，同时为了克服datadrift的波动在日常的首图场景还尝试了Adaptive-Online-Learning的算法，以及尝试了强化学习的思路。在后面的章节，会从算法层面逐一阐释。

采用非线性模型学习intermediatefeature，作为IDfeature和crossfeature的补充，最终输入到线性model来做CTR预估，最早是由Facebook提出的，思路大致如下：采用rawfeatures（一般是统计类特征）训练出GBDT模型，获得的所有树的所有叶子节点就是它能够generate出来的特征空间，当每个样本点经过GBDT模型的每一个树时，会落到一个叶子节点，即产生了一个中间特征，所有这些中间特征会配合其他ID类特征以及人肉交叉的特征一起输入到LR模型来做CTR预估。显然，GBDT模型很擅长发掘有区分度的特征，而从根到叶子节点的每一条路径体现了特征组合。对比手工的离散化和特征交叉，模型显然更擅长挖掘出复杂模式，获得更好的效果。我们通过GBDT来做特征挖掘，并最终与FTRL模型融合的方案如下图：

输入到GBDT的特征非常关键，这些特征决定了最终产出的中间特征是否有效。我们有一套灵活的特征生成流程，可以方便做各种维度的特征提取以及交叉统计。GBDT+FTRL中主要用到的特征包含两部分：第一部分是用户/宝贝ID与对方泛化维度交叉统计的特征，包含各种基础行为的次数以及CTR等。

借鉴Google今年在深度学习领域的论文《Wide&DeepLearningforRecommenderSystems》中所提到的Wide&DeepLearning框架（以下简称为WDL），并将其结合基于搜索事业部自研的机器学习平台的在线学习技术，我们研发了一套适用于推荐业务的WDL模型算法。下文将会对这一技术进行详述。

WDL模型的原理框架如上图所示：它将深度神经网络(DNN)网络和逻辑回归(LogisticRegression)模型并置在同一个网络中，并且将离散型特征(CategoricalFeature)和连续型特征(ContinuousFeature)有机地结合在一起。WDL模型主要由wide侧和deep侧组成。Wide侧通过特征交叉来学习特征间的共现，而deep侧通过将具有泛化能力的离散型特征进行特征嵌入(embedding)，和连续型特征一起作为深度神经网络的输入（可以认为是一种特殊的深度神经网络，在网络的最后一层加入了大量的0/1节点），从理论上来说，我们可以把deep侧看作传统矩阵分解(matrixfactorization)的一种泛化实现，值得注意的是特征嵌入的函数是和网络中其他参数通过梯度反向传播共同学习得到。模型的预测值采用如下公式进行计算：

相比对每个推荐场景单独进行个性化推荐的策略，基于强化学习框架（ReinforcementLearning）的推荐系统根据全链路的数据进行整合，同时响应多个异构场景的推荐请求。下图中我们对手机淘宝（天猫）客户端的数据/流量通路进行抽象：每个圆圈代表一个独立的手淘场景，E代表用户在该场景随时离开，箭头代表流量可能地流动方向。

基于以上的数据通路图，我们可以很自然地将全链路多场景的推荐任务理解为一个连续的决策问题：作为一个智能决策者（agent），推荐系统需要持续不断地决定应该为用户推荐怎样的内容（比如，商品、店铺、品牌以及活动）。强化学习正是一种对智能决策者进行建模的最佳方式：通过对智能决策者短期状态的变化进行递归式建模，最终引导其渐进式地优化长期目标。

通过等式(7)，我们可以迭代计算对无偏估计值进行求解。实际情况中用户必然会因为推荐商品的组合问题产生更复杂的行为，这样一来必然导致累积奖励独立计算的假设不成立。但以此为本，我们可以推导出基于更复杂假设下的计算累积奖励估计量的递归公式。

参考文献

[1]Mnih,V.,Kavukcuoglu,K.,Silver,D.,Graves,A.,Antonoglou,I.,Wierstra,D.,Riedmiller,M.A.,Playingatariwithdeepreinforcementlearning.CoRRabs/1312.5602,2013.

[2]A.Y.Ng,D.Harada,andS.J.Russell.Policyinvarianceunderrewardtransformations:Theoryandapplicationtorewardshaping.InProceedingsofthe16thInternationalConferenceonMachineLearning,pages278–287,1999

[3]E.Wiewiora.Potential-basedshapingandQ-valueinitializationareequivalent.JournalofArtificialIntelligenceResearch,19(1):205–208,2003

THE END

第七章人工智能，7.1基于深度强化学习与自适应在线学习的搜索和推荐算法研究(作者：灵培霹雳哲予)jiapeng

线上学习平台在各科教学中的应用教学研究课题报告.docx

在线学习研究30年

大学生在线，很多人都在关注这个话题，希望能有更多的讨论和交流

国内外关于在线学习研究的现状分析

探究社区理论视域下学习者在线学习投入影响研究

在线学习中深层次学习发生策略的研究

对在线学习的建议汇总十篇

2018中文在线:线上学习平台的崛起与未来展望

第七章人工智能，7.1基于深度强化学习与自适应在线学习的搜索和推荐算法研究(作者：灵培霹雳哲予)jiapeng