强化学习在生成对抗网络文本生成中扮演的角色（RoleofRLinTextGenerationbyGAN）（下）|在强化学习中_在线学习

原标题：强化学习在生成对抗网络文本生成中扮演的角色（RoleofRLinTextGener

原标题：强化学习在生成对抗网络文本生成中扮演的角色（RoleofRLinTextGenerationbyGAN）（下）

5.一些细节+一些延伸

上文所述的，只是RL+GAN进行文本生成的基本原理，大家知道，GAN在实际运行过程中任然存在诸多不确定因素，为了尽可能优化GAN文本生成的效果，而后发掘更多GAN在NLP领域的潜力，还有一些值得一提的细节。

5.1.RewardBaseline：奖励值上的Bias

在4.2节中提到，我们采用鉴别器D给予生成样本的概率得分（属于真实样本的概率）作为奖励，既然是概率值，应该意识到这些概率得分都是非负的，如此一来即便生成出再差的结果，鉴别器D也不会给出负进行惩罚。从理论上来讲，生成器的训练会趋向于降低较小奖励值样本出现的概率而提高较大奖励值样本出现的概率，然而在实做时，由于采样不全等不可控因素的存在，这样不够分明的奖惩区别将有可能使得生成器G的训练变得偏颇。

实际上，在强化学习的对话生成模型当中，就已经出现了此类问题。解决的方法很简单，我们设置一个奖励值的基准值Baseline，每次计算奖励值的时候，在后面减去这个基准值作为最终的奖励or惩罚值，使得生成器G的生成结果每次得到的奖惩有正有负，显得更加分明。记奖惩基准值为，则4.1节中优化梯度的计算公式修改为：

对应地，在RL+GAN的文本生成任务中，同样在鉴别器D对各个生成样本打出的概率得分上减去奖惩基准值，则4.2节中SeqGAN与ConditionalSeqGAN期望奖励值的优化梯度计算公式也分别修改为如下：

5.2.REGS：一人犯错一人当

细心的读者可以发现，在SeqGAN的奖励优化梯度计算公式的推导中，由鉴别器D给予的生成样本奖励得分其实是顺应序列文本的生成过程，逐词产生的，可以看到之前的推导公式中显示了对于Partly文本序列的阶段性奖励值求和再求平均。然而在起初的实验中，根据最终推导的奖励值优化梯度计算公式，鉴别器D被训练为用于对整句生成结果进行评估打分，这样的话，鉴别器D的打分对于生成序列中的每一个token都是同等的存在，要奖励就一起奖励（奖励值可视为相同），要惩罚就一起惩罚，这种做法会导致一个后果，看下面的例子。

比如有这样一个对话组（包含真实回答和生成回答）：

question=['你','叫','什么','名字','？']real_answer=['我','叫','张三','。']fake_answer=['我','不','知道','。']

很显然，鉴别器D能够轻易辨识后者回答是假的，必然会给出极低的奖励值得分，但是仔细对比真/假两个回答可以发现，第一个词“我”其实和真实样本的第一个词是一样的，而最后一个字符“。”其实也并无大碍，它们其实并没有错，真正错误的是“不”和“知道”这两个词，但很不幸，鉴别器判定fake_answer的整体回答是假的，原本无辜的词项“我”和“。”也要跟着一起接受低分判定的惩罚。

让我们回到GAN+RL对文本生成模型的优化原理，假设是面对输入上文时生成对话下文的概率，我们将它拆分成逐个单词拼接的形式，每一个出现的词汇都将收到之前context的影响。

在4.1，4.2节中提到，如果生成样本被鉴别器D打出低分（受到惩罚），生成器G将被训练于降低产出此结果的概率。结合上面这条公式，倘若单独将生成序列中的一部分前缀拿出来与真实样本中完全相同，岂不是也要接受整体低分而带来的惩罚？

解决这一缺陷的直接方法就是把奖惩的判定粒度进一步细化到word或character级别，在文本逐词生成的过程中对partly的生成结果进行打分。这种处理其实在SeqGAN的论文中[17]就已经实施了，拓展到ConditionalSeqGAN中，优化梯度的计算公式应改写为如下：

公式中，是计算的关键，它代表鉴别器D在文本逐词生成过程中获得部分文本的情况下对于最终reward的估计，简而言之就是每得到一个新的生成词，就结合此前生成的前序文本估计最终reward，并作为该生成词单独的reward，SeqGAN的论文中使用蒙特卡洛搜索[21]（MonteCarloSearch，MCsearch）的方法计算部分生成序列对于整体reward的估计值。而在ConditionalSeqGAN的论文中，赋予了这种处理一个名字——RewardforEveryGenerationStep（REGS）。

5.3.MCSearch&DiscriminatorforPartiallyDecodedSequences：准度与速度的抉择

上一节说到SeqGAN中使用MCsearch进行部分序列奖励估计值的计算，作为REGS操作的关键计算，其难处在于，我们并不能预知部分生成序列能给我们带来的最终结果，就好像一场篮球比赛，可能半场结束比分领先，却也不能妄言最终的比赛结果一样。

既然如此，在只得到部分序列的情况下，只得估计获得，MonteCarloSearch[21]就是其中一种估计方法，MonteCarloSearch的思想极其简单，假设我们已经拥有了部分生成的前缀，我们使用当前的Generator，强制固定这个前缀，并重复生成出$M$个完整的序列（有点采样实验的意思），分别交给鉴别器D进行打分，这个模拟样本的平均奖励得分即为部分序列的奖励估计值。

当然，使用MCsearch的缺点也很明显：每生成一个词，就要进行次生成采样，非常耗时；还有一小点，每当我们计算较为后期的一些部分序列奖励估计值的时候，总是会无法避免地再一次计算前面早期生成的项，这样计算出来的可能导致对于较前子序列（比如第一个词）的过拟合。

另外一种方法提出于ConditionalSeqGAN的论文，干脆训练一个可以对部分已生成前缀进行打分的new鉴别器D。将某真实样本的的全部前缀子序列（必须从第一个词开始）集合记作，同样将某生成样本$X^-$的全部前缀子序列集合记作，我们每次从这两者中随机挑选一个或若干个标定为或（与原序列相同），与原序列一同加入鉴别器D的训练中，这样训练得到的Discriminator便增添了给前缀子序列打分的能力，直接使用这样的Discriminator给前缀子序列打分即可获得。这种方法的耗时比起使用MCsearch要少很多，但得损失一定的准度。

一句话总结两种的计算方法：一种是利用部分序列YY出完整序列来给鉴别器打分，而另一种则直接将部分序列加入鉴别器的训练过程，得到可以为部分序列打分的鉴别器，一个较慢，另一个快却损失准度，如何选择就看大家了。

5.4.TeacherForcing：给Generator一个榜样

在开始讲解SeqGAN中的TeacherForcing之前，先帮助大家简单了结一下RNN运行的两种mode：(1).Free-runningmode；(2).Teacher-Forcingmode[22]。前者就是正常的RNN运行方式：上一个state的输出就做为下一个state的输入，这样做时有风险的，因为在RNN训练的早期，靠前的state中如果出现了极差的结果，那么后面的全部state都会受牵连，以至于最终结果非常不好也很难溯源到发生错误的源头，而后者Teacher-Forcingmode的做法就是，每次不使用上一个state的输出作为下一个state的输入，而是直接使用groundtruth的对应上一项作为下一个state的输入。

就拿Seq2Seq模型来举例，我们假设正输出到第三项，准备生成第四项：

input=['a','b','c','e','f','g','h']output=['o','p','s',...]label=['o','p','q','r','s','t','u']

Free-runningmode下的decoder会将第三项错误的输出output[2]='s'（下标从0开始）作为下一个state的输入，而在Teacher-forcingmode下，decoder则会将正确样本的第三项label[2]='q'作为下一个state的输入。当然这么做也有它的缺点，因为依赖标签数据，在training的时候会有较好的效果，但是在testing的时候就不能得到groundtruth的支持了。最好的结果是将Free-runningmode的behavior训练得尽可能接近于Teacher-forcingmode，ProfessorForcing[23]使用GAN尝试实现了这一目标。

当然，这些都是题外话，我们要回到Teacher-Forcingmode最初的motivation：训练（迭代）早期的RNN非常弱，几乎不能给出好的生成结果（以至于破灌破摔，产生垃圾的output影响后面的state），必须依靠groundtruth强行扶着走，才能慢慢进入正轨。

SeqGAN也存在这样的问题，一开始的生成器G非常弱，即便是经过一定量的预训练，也几乎生成不出好的Result，然后这些badresult给到鉴别器D必然只能返回很低的（惩罚），生成器G的训练只能根据鉴别器的打分来优化而无法得到goodexample的指导，永远不知道什么是好的结果，结果必然是恶性循环。于是，有必要在SeqGAN训练中给到生成器G真实样本的指导，也就是告诉生成器：“什么样的样本才配得到高分”

4.2节中提到，生成器G和判别器D的训练时交替进行的，由于鉴别器返回的打分是判定输入样本为真的概率，我们可以随机取出一部分真实的样本对话组，然后直接设置他们的鉴别器奖励值为（或者其他任意定义的最高分），将它们加入生成器G的训练过程中，这样生成器就能知道何种样本能得到最高的奖励，从而一定程度上避免了SeqGAN的训练过程由于一方的弱势而发生崩塌。

或者也可以这样：用训练好的鉴别器D也为随机抽样的真实样本打分，然后加入到生成器G的训练过程中，不过，一定要确保鉴别器D已经得到充分训练，至少给予任意真实样本的打分要高于baseline才行（奖励值经过偏置处理后也必须为正）。

5.5.Actor-Critic：更广义上的GAN？

首先我们回顾一下GAN中鉴别器D和生成器G优化时的目标函数：

再说说强化学习，在基于策略迭代的强化学习中，通过尝试当前策略的action，从环境获得，然后更新策略。这种操作在游戏实验环境中非常有效，因为游戏系统有封闭且清晰的环境，能够稳定地根据各种接收到的action客观地给出对应，而在现实生活中，很多时候并没有封闭清晰的环境，给定action应该得到什么样的本身也不准确，只能通过设定DIY的打分器来实现，显然这么做很难完美model真实世界千变万化的情况。

那么，能不能先学习出一个能够准确评估出奖励值的值函数，尽可能地描述环境，对各种action返回较为公正的预期奖励呢？也就是说的估计模型本身也是被学习的，这就是Actor-Critic，Actor部分采用传统的PolicyGradient优化策略，Critic部分借助“Q-Learning”学习出最优的action-value值函数，听起来有没有点像GAN的模式？来看看它的目标函数，其中指任意一中Divergence，值域非负当且仅当两个分布相同时取值为零即可（比如，KL-divergence，JS-divergence等等）：

文中将GANs模型比作一种特殊形式的Actor-Critic，并比较了两者各自的特点以及后续的改进技术在两者上的适配情况。试想一下，既然强化学习技术帮助GAN解决了在离散型数据上的梯度传播问题，那么同为强化学习的Actor-Critic也为对抗式文本生成提供了另外一种可能。

5.6.IRGAN：两个检索模型的对抗

IRGAN[25]这篇工作发表于2017年的SIGIR，从作者的阵容来看就注定不是一篇平凡的作品，其中就包含SeqGAN的原班人马，作者将生成对抗网络的思想应用于信息检索领域，却又不拘泥于传统GAN的经典Framework，而是利用了IR领域原本就存在的两种不同路数的model：生成式IR模型和判别式IR模型。

光从两个模型简单的介绍来看就能丝丝感觉到它们之间特殊的联系，两种风格迥异的IR模型在GAN的思想中“有缘地”走到了对立面，我们将生成式IR模型记作：，将判别式IR模型记作：，于是整个IRGAN的目标函数为：

在IRGAN中，鉴别器D定义为判别式IR模型的逻辑回归：

于是鉴别器D的目标函数进一步写为：

当然，也不能忘了我们的baseline——，文中设置baseline为当前查询结果的平均期望。

上述是针对Pointwise情形的IR任务，不同于Pointwise情形着重于得到直接的检索结果，Pairwise情形的IR把更多精力放在了ranking上，其返回结果中全是非对称二元对，其中比与当前的查询项关联性更高。IRGAN也可以扩展到Pairwise的情形，原则是：“一切从减”。鉴别器函数将改写为：

而假设生成器G是一个softmax函数，则Pairwise情形下的变形和简化推导如下：

IRGAN在Pairwise情形下的总目标函数如下，其中，表示真实的非对称二元组，而则表示生成式IR模型生成的二元组：

结语

这一领域的发展之迅速，也许在我完成这篇Blog的时候，又有一批工作争先恐后的冒出来了，但最终的结局肯定不止于此，我也不怎么擅长结尾，也许要等待GAN来为我，为我们带来一个奇妙的结局。

THE END

强化学习在生成对抗网络文本生成中扮演的角色（RoleofRLinTextGenerationbyGAN）（下）

军事领域的强化学习不同于机器学习中的强化学习算法智能体

强化学习在无人机项目中的应用

强化学习在现实场景中有哪些应用–PingCode

在强化学习的表示空间中引入规划能力的思路

强化学习与神经网络：实现智能决策的关键

宁心：在增进感情中强化学习自觉

基于模型的强化学习在无人机路径规划中的应用

2024教师政治学习个人心得体会（精选32篇）

强化学习在生成对抗网络文本生成中扮演的角色（RoleofRLinTextGenerationbyGAN）（下）