强化学习在美团“猜你喜欢”的实践|强化学习离线和在线_在线学习

在这样的多轮交互中，我们把推荐系统看作智能体（Agent），用户看作环境（Environment），推荐系统与用户的多轮交互过程可以建模为MDP：

我们的优化目标是使Agent在多轮交互中获得的收益最大化：

具体而言，我们把交互过程中的MDP建模如下：

超参数$\phi$的物理意义是调整全量数据集中点击和下单模型的TradeOff，通过综合考虑点击和下单两个任务的AUC确定，没有个性化的因素。我们以此为切入点，使用Agent的动作调整融合超参数，令：$score=click\ast\left(pay+\phi\right)$

a是由Agent的策略生成Action，这样做有两个好处：其一，我们知道一个较优解是a=1，这种情况下强化学习策略和基线的排序策略保持一致，由于强化学习是个不断试错的过程，我们可以很方便地初始化Agent的策略为a=1，从而避免在实验初期伤害线上效果。其二，允许我们根据物理意义对Action做Clip，从而减轻强化学习更新过程不稳定造成的实际影响。

在实验过程中我们发现，强化学习的策略可能上线初期效果很好，在点击和下单指标上都取得了一定的提升，但在后续会逐渐下降，如图7前半段所示。在逐层转化效率的分析中，我们发现强化学习分桶的设备曝光率和UV维度点击率有所降低，而用户停留时长和浏览深度稳定提升，这说明Agent学习到了让用户与推荐系统更多交互，从而获取更多曝光和转化机会的策略，但这种策略对于部分强烈下单意图用户的体验是有伤害的，因为这部分用户意图转化的代价变高了，因而对展位的期望变低。针对这种情况，我们在奖励塑形中加入两个惩罚项：

修正后的奖励为：

在模型方面，我们在不断改进MDP建模的过程中先后尝试了Q-Learning、DQN[3]和DDPG[4]模型，也面临着强化学习中普遍存在更新不够稳定、训练过程容易不收敛、学习效率较低（这里指样本利用效率低，因此需要海量样本）的问题。具体到推荐场景中，由于List-Wise维度的样本比Point-Wise少得多，以及需要真实的动作和反馈作为训练样本，因此我们只能用实验组的小流量做实时训练。这样一来训练数据量相对就比较少，每天仅有几十万，迭代效率较低。为此我们对网络结构做了一些改进，包括引入具体的Advantage函数、State权值共享、On-Policy策略的优化，结合线上A/BTest框架做了十数倍的数据增强，以及对预训练的支持。接下来我们以DDPG为基石，介绍模型改进的工作。

如图8所示，基本的DDPG是Actor-Critic架构。线上使用Actor网络，预测当前State下最好的动作a，并通过Ornstein-Uhlenbeck过程对预测的Action加一个随机噪声得到a’，从而达到在最优策略附近探索的目的。将a’作用于线上，并从用户(Environment)获得相应的收益。训练过程中，Critic学习估计当前状态s下采取动作a获得的收益，使用MSE作为LossFunction：

对参数求导：

Actor使用Critic反向传播的策略梯度，使用梯度上升的方法最大化Q估计，从而不断优化策略：

在确定性策略梯度的公式中，$\theta$是策略的参数，Agent将使用策略$\mu\theta\left(s\right)$在状态s生成动作a，$\rho^{}\mu$表示该策略下的状态转移概率。在整个学习过程中，我们不需要真的估计策略的价值，只需要根据Critic返回的策略梯度最大化Q估计。Critic不断优化自己对Q(s,a)的估计，Actor通过Critic的判断的梯度，求解更好的策略函数。如此往复，直到Actor收敛到最优策略的同时，Critic收敛到最准确的Q(s,a)估计。

接下来基于这些我们介绍的DDPG模型改进的工作。

如图9所示，在实际实验中观察V(s)和A(s,a)均值的比值大约为97:3，可以验证我们的这一判断。在实际训练过程中，我们先根据状态和收益训练V(s)，再使用Q(s,a)-V(s)的残差训练A(s,a)，很大程度上提升了训练稳定性，并且我们可以通过残差较为直观地观测到到当前策略是否优于基线。图8中A(s,a)稳定大于0，可以认为强化学习在自己的目标上取得了稳定的正向收益。

受A3C[6]网络的启发，我们观察到DDPG的网络中Actor和Critic网络中都有State的表达，而在我们的场景中大部分参数都集中在State的部分，在十万量级，其他参数只有数千，因此我们尝试把State部分的权重做共享，这样可以减少约一半的训练参数。

在A2C[7]的论文里作者论述了他们的见解：同步A2C实现比异步实现的A3C表现要好。目前尚未看到任何证据证明异步引入的噪声能够提供任何性能收益，因此为了提升训练效率，我们采取了这个做法，使用同一套参数估计Q_{t+1}和更新Q_t，从而使模型参数再次减半。

考虑多组强化学习实验同时在线的情况，结合A/BTest环境特点，我们把以上网络框架扩展到多Agent的情况。

如图11所示，线上多组实验共享State表达和V(s)的估计，每个策略训练自己的A(s,a)网络且能快速收敛，这样的结构一方面使训练过程更加稳定，另一方面为强化学习策略全量提供了可能性。

强化学习通常是在一次次试错（Trial-and-Error）中学习，实时地改进策略并获得反馈能大幅提升学习效率，尤其在连续策略中。这一点在游戏场景下很容易理解，相应地，我们也在推荐系统中构建了实时深度学习系统，让策略更新更加高效。为了支持实时更新的DRL模型和高效实验，我们针对OnlineLearning的需求，基于TensorFlow及TFServing做了一些改进和优化，设计并实现了一套特征配置化的实时更新的DRL框架，在实验迭代过程中沉淀了DQN、DDQN、DDPG、A3C、A2C、PPO[8]等模型。系统架构如图13所示：

训练部分工作流如下：

线上预测部分，推荐系统的Agent从Tair获取预处理参数，并将处理后的特征喂给TFServing做前向传播，得到Action并对展现给用户的排序结果做相应的干预。

针对TensorFLow对OnlineLearning支持比较弱，Serving对千万级Embedding处理效率不高的问题，我们做了一些改进：

同时强化学习作为机器学习的一个分支，很多机器学习的经验仍然适用于此。比如数据和特征决定效果的上限，模型和算法只是不断逼近它。对于强化学习而言特征空间主要包含在状态的建模中，我们强烈建议在状态建模上多做一些尝试，并信任模型有能力从中做出判断。再如，使用更多的训练数据降低经验风险，更少的参数降低结构风险的思路对强化学习仍然适用，因此我们认为DDPG的改进工作能够推广到不同业务的线上A/BTest场景中。此外，我们在训练过程中也遇到了强化学习对随机性敏感的问题[10]，为此我们线上使用了多组随机种子同时训练，选择表现最好的一组参数用于实际参数更新。

THE END

强化学习在美团“猜你喜欢”的实践

今天来讨论下离线强化学习方法

强化学习图鉴｜你与最优策略之间，可能还差一本离线强化学习秘籍

万字离线强化学习总结！(原理数据集算法复杂性分析超参数调优等）轨迹智能体

AWAC：使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

大模型面经答案—强化学习：理论解释与讲解

强化学习（七）时序差分离线控制算法QLearning刘建平Pinard

深度学习在计算广告中的应用随着机器学习特别是深度学习的不断发展，其广泛应用于计算广告投放流程的各个阶段。笔者最近对深度

探讨什么是离线强化学习

强化学习在美团“猜你喜欢”的实践