强化学习学习笔记第五章蒙特卡洛方法不秃头的程序员不秃头

蒙特卡洛(MonteCarlo,MC)方法是第一个真正意义上用于估计价值函数和发现最优策略的学习方法。MC方法不需要掌握环境的动态信息,而是通过与环境交互获得经验进行学习。与动态规划(DP)相比,MC方法尽管也需要一个模型,但该模型只用于生成交互样本,而DP需要完整的转移概率分布。MC方法通过求样本均值去估计状态价值,每当完成一轮交互之后,就会根据交互经验更新状态价值函数和最优策略。总体而言,MC方法是逐轮更新的,而不是逐步更新(在线)。

蒙特卡洛方法通过采样和平均回报去估计动作-状态价值的方法,与第二章多臂bandits问题很相似,多臂bandits问题就是通过不断采样和平均去估计每个动作的期望奖励。但它们之间的本质不同在于,多臂bandits问题是静态的,但MC方法处理的问题可以是动态的。

1.MC预测(policyevaluation)

假设现在要估计给定策略下的状态价值\(v_\pi(s)\)。最直观的方法就是,根据交互经验,对每个遇到的状态\(s\)求回报,并将其所有的回报样本求期望\(E[G|S_o=s]\)。随着观测数据的不断增加,状态\(s\)的回报期望就越接近于真实值。这里需要注意的是,在每一轮交互中,状态\(s\)出现的次数可能会存在多次,如果只计算第一次出现的状态\(s\)的回报,那么这种方法称为首次访问蒙特卡洛方法(first-visitMCmethod,FVMC);反之,如果对每一次出现的状态\(s\)都计算其回报,那么这类方法称为每次访问蒙特卡洛方法(every-visitMCmethod,EVMC)。两种方式的MC方法都会收敛到真实值。FVMC方法被研究的更早,且更为简单。下图给出了FVMC算法的伪代码。

从FVMC算法的伪代码中可以看出,该方法每轮是独立采样获得的回报\(G\),因此\(G\)是满足独立同分布的,其分布等同于\(v_\pi(s)\)。但是,方差却不能保证是有界的,原因在于累计奖励\(\sum_tR_t\)并不能保证是有界的,且方差通常较大。这样估计得到的状态价值是无偏的。

同时也可以看出,MC方法所估计的每一个状态价值都是独立的,它不基于其他状态价值的估计。即MC方法的重要特征就是不需要自举(bootstrap)。FVMC方法另一个优势在于,它可以对某一个特定的状态估计其状态价值,即从特定状态出发直至终结。

2.MC对状态-动作价值的估计

由于模型的动态信息是未知,通过估计状态价值函数无法得到最优策略,原因在于无法像动态规划那样,从当前状态出发尝试每一个动作,从而挑选出可以转移到最佳下一状态的动作。因此,模型未知时,估计状态-动作价值函数更为合理。

唯一复杂的是,许多状态-动作对可能永远不会被访问到。例如\(\pi\)是一个确定性策略,则在策略\(\pi\)下每个状态\(s\)只能观察到一个可选动作的回报。这是一个严重的问题,因为学习状态-动作价值的目的是帮助在每个状态的可用动作中选择最佳动作。因此,这是一个持续探索的问题(maintainingexploration),需要探索所有可能的状态-动作价值。其中一个方法就是选定起始状态-动作对采用遍历所有的状态-动作对或者所有的状态-动作对都有概率被选中,这种方法称为起始性探索(exploringstarts)。

起始性探索的假设有时是有用的,但一般来说并不可靠,尤其是需要直接与实际环境互动进行学习。另一个最常见的替代方法是采用随机性策略,使得每一个状态的所有可选动作都有可能被选中。

3.MC控制

现在考虑如何用蒙特卡洛估计方法来进行控制,即近似最优策略。总体思路就是之前提到的GPI,广义策略迭代。

首先,考虑经典策略迭代的蒙特卡洛版本。在这种方法中,需要交替执行策略评估和策略改进的步骤,从任意初始策略\(\pi_0\)开始,最后收敛到最优策略和最优状态-动作价值函数:

在第\(k\)轮交互后,估计得到最优状态-动作价值函数\(q_{\pi_k}(s,a)\),利用贪婪的方式来更新当前策略可得

\(\pi_{k+1}\)之所以优于\(\pi_k\),正是基于策略改进理论,即

该理论保证了最优策略与最优价值函数的收敛。从而说明蒙特卡罗方法可以用于在没有获得环境动态信息的情况下,只通过每轮交互的采样找到最优策略。但是,在实际过程中,先进行策略评估得到近似的\(q_\pi\)需要进行大量的采样(多轮交互),再进行策略改进,如此循环往复其收敛速度太慢。其改进方式类似于价值迭代,每完成一轮交互,就更新策略评估,同时进行策略改进,而不用等到策略评估收敛后才改进策略。下图给出了MCES算法的伪代码。

MCES算法需要随机起始点,要求所有的状态-动作对都有可能被选中。这个条件比较苛刻,许多场景都不适用。MCES算法采用的是确定性策略,但由于起始点\((S_0,A_0)\)是随机的,从而保证了持续探索性,即一个状态的所有可选动作都有可能被探索到。最后,MCES算法是逐轮更新的,直至收敛,符合广义策略迭代的理论。

4.随机策略的MC控制

为了避免起始性探索的假设,现在引入两个新的概念:在线策略方法与离线策略方法(on-policy,off-policy)。在线策略方法是指用于交互的策略(用于评估或改进),同时也是用于控制的策略。而离线策略方法中交互策略用于生成样本数据,而训练得到的目标策略用于控制。蒙特卡洛ES方法是一个在线策略方法的例子。

在线控制方法其策略往往是软性的(soft),即随机策略\(\pi(a|s)>0\)对于所有的\(s\in\mathcal{S}\)和\(a\in\mathcal{A}(s)\),随着交互轮数的增加逐渐向确定性策略靠拢。例如,\(\epsilon\)-greedy方法是在线策略方法中经常采用的动作选择策略。其对于任意非贪婪动作的选择概率为\(\frac{\epsilon}{|\mathcal{A}(s)|}\),而对于贪婪动作的选择概率为\(1-\epsilon+\frac{\epsilon}{|\mathcal{A}(s)|}\)。基于第一次访问的在线策略MC算法不再要求随机初始点,因为它引入了软性策略已经具备了持续探索性。其算法的伪代码如下。

根据策略改进理论,\(\epsilon\)-greedy策略同样可以逐渐逼近最优策略。其证明如下。

利用状态价值函数的最优解的唯一性,可得\(\epsilon\)-greedy策略最终会收敛到最优解。

5.通过重要性采样(importancesampling)的离线策略预测

所有的策略学习方法都面临一个困境,如何从次优的交互过程中学习到最优策略。在线学习方法采用随机策略,使其逐渐逼近最优策略。离线学习方法则更为直接,定义两个策略,一个用于学习最优策略,称为目标策略(targetpolicy),即确定性策略;另一个用于探索环境生成经验样本,是随机性策略,称为交互策略(behaviourpolicy)。离线学习方法通常有更大的方差和更慢的收敛速度,但是另一方面,它更加强大更加通用。当目标策略和交互策略保持一致,那么离线学习方法等同于在线学习方法。

离线学习方法中的预测问题,相当于根据交互策略\(b\)去估计目标策略\(\pi\)中的价值函数\(v_\pi\)或\(q_\pi\),其中\(b\neq\pi\)。这里有一个前置条件\(\pi(a|s)>0\)当且仅当\(b(a|s)>0\),即交互策略要覆盖目标策略的动作-状态空间。几乎所有的离线学习方法使用了重要性采样技术,即根据一种分布下的采样数据估计另一种分布下的期望。给定初始状态与动作,根据随机性策略生成一段交互轨迹\(\{S_t,A_t,S_{t+1},A_{t+1},\ldots,S_T\}\),可得这段轨迹的概率为

定义目标策略与交互策略下轨迹的相对概率为重要性采样系数,即

可以看出重要性采样系数与状态转移概率无关,仅与动作选择概率有关。简单分析一下\(\rho_{t:T-1}\)的值,当\(\pi\)为确定性策略时,\(\pi(a|s)=1\),而\(0

我们希望估计目标策略\(\pi\)下的期望回报值,但真实交互采用的是交互策略\(b\),计算得到回报\(G_t\),得到的期望为\(E[G_t|S_t=s]=v_b(s)\)。这就是重要性抽样的作用所在。一条轨迹对应一个回报\(G_t\)和其对应概率\(P\{\cdots\}\),由此可得目标策略的回报\(\rho_{t:T-1}G_t\),从而得到策略\(\pi\)的回报期望值:

式(5.1)本质就是取所有采集得到的策略目标回报样本求均值。另一个改进方法是加权重要性采样(weightedimportancesampling):

对于首次访问方法,一般重要性采样方法是无偏的,但是加权采样方法是有偏的,例如仅一次采样,通过加权采样方法得到的期望为\(G_t\),显然不正确。但在实际应用中,加权采样方法通常有更小的方差,实际效果更好,原因在于

加权后的\(W_iG_{t_i}\)具有更小的方差。当\(\rho_{t:T(t)-1}\)越大,则意味着交互策略产生与目标策略一致的交互轨迹的概率越小,在实际采样过程中,\(\rho_{t:T(t)-1}\)大部分情况下都为0。

最后,对于每次访问方法,两种采样都是有偏的。

6.递增法(incrementalimplementation)

这里主要考虑加权采样方法的递推实现。考虑针对状态\(s\)采样已得到一系列的回报值\(G_1,G_2,\ldots,G_n\)及其对应的权重\(W_i=\rho_{t_i:T(t_i)-1}\),则得到状态价值估计:

下一次采样,状态价值估计更新为

其中,\(C_{n+1}=C_n+W_{n+1},\C_0=0\)。下面给出离线学习的蒙特卡洛预测方法的伪代码,如下图所示。

书上提供的伪代码是基于每次访问的离线策略算法。伪代码中用了一些技巧,针对一条轨迹从后向前逐个更新状态-动作价值,即使一个状态-动作对出现多次,最终会被首次访问的状态-动作价值所替代,而重要采样率\(W\)也采用累乘的方式进行更新,效率更高。同时,需要注意策略\(\pi\)是确定性策略,所以\(\pi(A_t|S_t)=1\)。当交互策略采用的动作不是确定性策略所采用的动作时,\(W=0\)。

值得注意的是,利用交互策略去估计目标策略下的状态-动作价值,当目标策略的动作轨迹在交互策略中出现的概率越小,那么当采样得到该条轨迹的回报时,就应该更加重视,从而衡量目标策略下的状态-动作价值。也只有当交互策略的动作与目标策略的动作一致时,重要性采样的回报才有可能不是0。

7.离线学习方法的MC控制

离线学习的MC控制算法的核心思想仍然是广义策略迭代,在更新状态-动作价值函数的同时进行策略改进,直至得到最优策略。下图给出离线学习的MC控制算法的伪代码。

通过伪代码可以看出,只要发生策略改进则重新进行采样。其原因在于,目标策略采用的是确定性策略,当交互策略采用的动作\(a\)与目标策略的动作不同时,则\(\pi(a|s)=0\),导致重要性采样系数为零,就没必要再进行本轮游戏的循环了。当动作空间较大时,该算法的学习速率会比较慢。而解决这一问题的有效方法是采用差分学习,这不是本章所要表达的重点。

8.小结

这一章主要描述了蒙特卡洛方法,它实际上是一种基于逐轮更新的交互学习的方法。相比于动态规划方法,蒙特卡洛方法有四点优势。第一,蒙特卡洛方法不需要知道环境的动态信息,只需要在和环境的交互中学习最优策略。第二,蒙特卡洛方法可以利用采样模型进行学习,对于复杂环境,即使知道其动态信息也很难实现,而获得模拟样本却相对比较容易。第三,蒙特卡洛方法可以只估计状态空间中感兴趣的部分,而不用精确估计所有状态集。第四,蒙特卡洛方法不会受限于马尔可夫性质,因为它并不采用自举的方式,状态价值的估计值是独立同分布的。

蒙特卡洛方法需要注意的一点就是保持充分的探索。由此产生两种方式,一种是在线学习方式,一种是离线学习方式。在线学习方式采用随机策略,随着采样数据的不断增加,使得随机策略不断逼近最优策略。离线学习方法定义两种策略,一种是目标策略用于近似最优策略,一种是交互策略用于产生样本,但从交互策略中估计目标策略下的状态价值需要引入重要性采样技术。

9.例子

21点游戏:21点纸牌游戏的目的是获得其数值之和尽可能大但不超过21的纸牌。所有的花牌(J,Q,K)都计为10,一张王牌(A)可以计为1或11。考虑每个玩家与庄家独立竞争的版本。游戏开始时发两张牌给庄家和玩家。庄家的一张牌面朝上,另一张牌则面朝下。如果玩家立即有21点(一张王牌和一张花牌),这被称为黑杰克,,那么他就赢了,除非庄家也有黑杰克,则比赛是平局。如果玩家没有21点,那么他可以继续要牌,直到他停牌(卡住)或超过21点(爆掉)。如果玩家爆掉就输了;如果玩家没爆掉且停牌,那么就轮到庄家。庄家只能按照固定策略要牌或者停牌:庄家点数必须在17或以上的总和,否则必须要牌。如果庄家爆掉,则玩家获胜;否则,比较谁的最终总和接近21,则谁获胜。

21点游戏可以看作是一个回合制的有限马尔科夫动态过程。在这个游戏过程中,过程奖励\(R\)设置为0,只在游戏结果中给予奖励,如果玩家赢了则奖励为\(+1\),如果输了则奖励为\(-1\),平局奖励为\(0\)。玩家的动作就两个,要牌或停牌。游戏状态取决于玩家和庄家的牌面。在仿真过程中,假设牌是可重复抽取的,这样记录牌抽取的过程就没有必要了。当卡牌A被记为11点且没有爆掉,则认为是卡牌A有用,反之则没用。

仿真1

首先考虑蒙特卡洛预测问题。玩家的策略采用当玩家手中点数为20或者21时才停牌,否则将一直要牌。MC预测问题就是衡量固定策略下的状态价值函数。

在程序实现过程中,需要注意几点。当玩家的点数小于12时,任何策略都会选择要牌,因此这些状态价值不值去探索。由于卡牌A的作用会随着要牌的情况而发生改变,可以统计有效卡牌A的数量,当点数大于21且有效卡牌A数量不为0时,总点数-10并卡牌A数量-1。具体代码参照随书代码blackjack.py。蒙特卡洛预测结果如下图所示。

仿真结果与我们的认知相符,蒙特卡洛方法是采用逐轮采样的,卡牌A发挥作用比不发挥作用的情况要少,所以当游戏局数较少时,采集的样本也较少,估计的效果就比较差(比较左侧两图)。当游戏局数足够多之后,状态价值函数的估计就逼近真实值了。

仿真2

下面考虑随机起始点的蒙特卡洛算法(MCES算法)学习21点游戏的最优策略。在程序实现过程中,需要注意MCES算法采用的是首次访问的统计方式。由于游戏过程的奖励为0且假设\(\gamma=1\),这里在计算每个状态-动作价值的方法中可以采用取巧的方式,从每轮轨迹的初始状态向后计算即可,因为\(G_{t-1}=\gamma\cdotG_t+r_t=r_T\)。当遇到已经出现过的状态-动作对,则跳过。本次仿真总共进行了一百万局,MCES算法的仿真结果如下。

仿真结果也符合我们的认知,当卡牌A发挥作用时,状态价值整体比没有发挥作用时较好。

仿真3

最后考虑蒙特卡洛重要性采样的离线策略预测方法。针对初始状态:卡牌A发挥作用,玩家初始点数为13,庄家显示的牌的点数为2,利用随机策略去估计确定策略(玩家的策略采用当玩家手中点数为20或者21时才停牌,否则将一直要牌。)下的状态价值。仿真过程中分别采用一般重要性采样方法和加权重要性采样方法。仿真结果如下。

THE END
1.强化学习强化学习中,离线策略和在线策略的区别是什么?请从原理和例在强化学习(RL)中,离线策略和在线策略是两种不同的学习和决策方法,它们各有优势和适用场景。 了解这两者的区别有助于选择适合的算法和策略进行有效的学习和决策。 接下来,我们将从原理和例子两个方面对离线策略和在线策略进行详细解释。 原理 1. 离线策略(Off-policy) https://blog.csdn.net/wq6qeg88/article/details/140999201
2.强化学习蒙特卡罗之离线策略在线策略和离线策略,也是观测到 greedy 产生的策略有一定的随机性,不适合做最优策略。策略评估和策略改进能否用两种策略呢?根据答案从而产生了 on-policy 和off-policy 两种方案。 On-policy (在线策略)是指两个过程中使用的是同一个策略。 离线策略 off policy https://www.jianshu.com/p/20feefe77239
3.基于离线策略的电力系统安全稳定在线附加紧急控制方法影响“在线预决策,实时匹配”紧急控制技术推广应用的关键因素之一在于难以对在线策略的适应性进行量化评估,通常还是凭经验预先设定在线策略的适用条件,其可靠性难以保证。[0004]综上所述,基于离线策略的紧急控制在电网大多数运行工况下能够保证电网的安全稳定,但控制策略的精度不高,通常过于保守,控制量过大;基于在线预https://www.xjishu.com/zhuanli/05/CN104779608.html
4.在线帮助信息离线策略,离线操作,生成策略,导入策略,离线过期,离线管理http://www.amoisoft.com/onlinehelp_ld/328.htm
5.一种基于海量策略智能处理平台的全市场多品种金融资管系统.pdf一种基于海量策略智能处理平台的全市场多品种金融资管系统.pdf,本发明公开了一种基于海量策略智能处理平台的全市场多品种金融资管系统,包括:交易平台,数据平台和策略平台。负责策略包括离线策略生产管理子系统和在线策略运行管理子系统,策略平台采用机器学习算法来计算https://max.book118.com/html/2023/1209/5001301144011022.shtm
6.本地谷歌SEO现状:专家们权衡行业特定策略—AdWeb全球站第三个最重要的营销策略是了解你的客户是谁,他们住在哪里,你如何与他们建立联系,以及他们关心什么。从战略的角度来看,您对目标客户的了解越多,您就越能参与到他们所属的当地社区中。对于本地搜索,我认为谷歌希望在在线世界中突出来自离线世界的流行公司。开始专注于建立一个更好的本地品牌。 https://www.adwebcloud.com/www.adwebcloud.com/bdggsxzzjmqhhyt/
7.机器学习:在线学习和离线学习的区别机器学习中的在线学习和离线学习 区别 Online Learning And Offline Learning 第一种理解 在线学习,通常是一次输入一条数据(而不是一个batch),训练完了直接更新权重。一个一个地按照顺序处理数据,但是每一个数据训练完后都会直接更新权重,但不知道是对是错,如果某一次权重更新错误,在这之后的权重更新可能一直都是错https://zhuanlan.zhihu.com/p/269454065
8.墨墨背单词99999破解版安卓2022下载3.量身定制的抗遗忘策略 墨墨背单词对每一个独立的单词依据单词难度和学员个体的记忆差别量身定制专属于每一个学员的记忆规划。在每个单词即将到达遗忘临界点的时候,恰到好处的安排你的下一次复习。 4.自由的词汇添加 墨墨背单词允许你随时添加新的单词到学习列表,甚至一篇自定义文章的单词提取,很好的结合了你平时生https://www.37uu.cn/soft/662666.html
9.智能控制技术范文12篇(全文)由于采集的数据仅覆盖装置所在地附近的区域,无法推算整个系统的运行状态,故如何将电力系统暂态稳定紧急控制模式由现有的“离线计算策略表,实时故障匹配”模式向“在线预决策、实时匹配”的新控制模式发展以及原系统中出现的一些问题与其在新系统中相应的解决方案必须进行深入的研究。https://www.99xueshu.com/w/ikeyve5gy2gl.html
10.电力系统黑启动恢复问题的研究评述文献[54]引入带精英策略的快速非支配排序遗传算法求解多目标输电网架重构模型,较好地避免了求解过程的目标偏好性。文献[55]考虑特级负荷的停电损失,建立了重构过程中的源网荷协同优化模型。文献[26]开发了目标网架与恢复序列统一决策的应急恢复在线决策支持系统。文献[56]提出一种离线训练在线搜索的网架重构实时优化决策https://dgjsxb.ces-transaction.com/fileup/HTML/2022-13-3183.htm
11.读懂数字人民币,这一篇就足够产品笔记DC/EP凭借双离线支付、账户松耦合等技术设计提高我国金融稳定性,增强经济体应对突发状况能力。 助力货币体系降本增效,推动普惠金融 DC/EP可降低货币运营成本,便利货币政策传导,畅通信息数据链条,降低金融服务门槛;提升反洗钱、反恐怖融资、反逃税监管效率,以及满足公众匿名需求。 https://www.shangyexinzhi.com/article/4579724.html
12.我对SLG游戏制作的一些思考随着则服务器到达一定进程后,留存玩家数量会降低。在这个前提下,主旋律是一个人员扩编和整合的过程,以此来保持组织的结构稳定及大地图策略的实施。 当服务器导量人数多时,各个社会阶层的人更容易被吸纳接近现实社会的比例,从而实现小型社会的模拟,达成平衡并维持长期的稳定。最理想的情况是:多个头部的组织,互相形成制https://weibo.com/ttarticle/p/show?id=2309404740343227876427
13.得物AppH5秒开优化实战OSCHINA从点击到路由这部分耗时在线下进行了性能测试,几乎可以忽略不计。 3.2.3 最终线上收益效果 在上述问题解决后,将缓存时间修改为 1 天,发现预请求 HTML 开启状态下可提升 8% 左右的秒开,已经和预加载的效果相差不大了。 3.3 离线包 通过提前将 H5 页面内所需的 css、js 等资源聚合在一个压缩包内,由客户端https://my.oschina.net/u/5783135/blog/5527553
14.科学网—[转载]群视角下的多智能体强化学习方法综述基于学习(深度学习、强化学习)设计的迭代式问题求解方法是离线策略学习的基础范式。由于环境及对手的非平稳性,离线训练的蓝图策略通常很难直接运用于在线对抗。在线博弈对抗过程与离线利用模拟多次对抗学习博弈过程不同,博弈各方处于策略解耦合状态,与离线批(batch)式策略学习方法不同,在线博弈对抗策略的求解本质是一个流https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
15.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习该研究提出了一种样本高效的离线转在线强化学习算法,旨在解决两个重要挑战:(1)探索局限性。离线强化学习通常对离线策略评估算法施加严格的限制,以避免采样分布外状态-动作对。由于探索行为策略通常由目标策略派生,这种受限制的预训练策略往往执行保守的动作,使得探索行为策略无法寻找可能产生高奖励并导致长期收益的新颖状态http://icfs.jlu.edu.cn/info/1007/3101.htm
16.线上线下融合教学的优势不足与发展策略内容努力为学生提供高质量,科学的教学服务,以有效满足学生个性发展和全面素质教育的要求。教师应注意,并不是所有的课程都可以使用线上线下混合教学方式进行教学。教师应深入学习教科书,明确学习目标,并为在线和离线学习选择适当的主题。逐步提高自身的信息素养和教学理念,在提高教学质量的同时,确保学生在学习中的核心地位。https://tpd.xhedu.sh.cn/cms/app/info/doc/index.php/92024
17.在对齐AI时,为什么在线方法总是优于离线方法?他们通过消融研究发现,提升离线优化的一种有效方法是生成分布上接近起始 RLHF 策略(这里就刚好是 SFT 策略)的数据,这本质上就模仿了在线算法的起始阶段。 优化性质 该团队发现判别能力和生成能力之间存在一种有趣的相互作用:尽管离线策略的分类能力胜过在线策略,但离线策略生成的响应却更差(见图 6、7、8)。 https://m.thepaper.cn/newsDetail_forward_27434433
18.安秉网盾加密软件让数据安全如影随形离线用户管理(短期):若员工临时出差在外,可以通过离线策略对其进行管理。设置员工离线的时间,比如72小时,当计算机离线大于72小时后,所有加密文件将不能打开。 加解密网关 安全网关对访问服务器的计算机进行严格的身份验证,防止未授权的用户和进程访问服务器获取机密数据。 通过上传解密、下载加密及通讯加密,实现对加密文档https://www.anbingsoft.cn/news/gscyjm/2023/0914/957.html
19.基于优化算法的插电混动PHEV能量管理策略概览目前应用较多的EA 包括粒子群算法(Particle swarm optimization, PSO),遗传算法(Genetic algorithm,GA),拟退火算法(Simulated annealing,SA),蚁群算法(Ant colony optimization, ACO),差分进化算法(Differential evolution, DE)等,针对于PHEV 能量管理问题,该算法现阶段均采用离线运算出最优结果,再与在线策略相结合的机制https://www.yoojia.com/article/9615930982477810013.html
20.河北加密软件透明加密策略 透明加密:在文件创建或编辑过程中自动强制加密,对用户操 作习惯没有任何影响,不需手动输入密码。当文件通过非正常 渠道流至外部,打开时会出现乱码或无法打开,并且始终处于 加密状态。加密过程在操作系统内核完成,保证了加密的高效 性。 半透明加密:用户可以打开加密文件,新建的文件不加密。 解密在线审批https://www.anbingsoft.com/zhuanti/hebei/shijiazhuang/
21.政府采购用户需求书(精选6篇)1)要求提供企业电子档案一体化迁出和迁入功能。适用于企业管辖单位发生变更后,对相应的企业电子档案进行一体化的迁出与迁入管理,具备在线迁移、离线迁移、迁移日志管理等功能。 2)在线迁移提供基于标准FTP网络传输方式的电子档案迁出和迁入功能。3)离线迁移提供基于本地移动存储介质的海量电子档案迁出和迁入功能,专门解决大https://www.360wenmi.com/f/filegkpq2k8e.html
22.悄悄学习Doris,偷偷惊艳所有人ApacheDoris四万字小总结DorisDB 重新定义了 MPP 分布式架构,集群可扩展至数百节点,支持 PB 级数据规模,是当前唯一可以在大数据规模下进行在线弹性扩展的企业级分析型数据库。 DorisDB 还打造了全新的向量化执行引擎,单节点每秒可处理多达 100 亿行数据,查询速度比其他产品快 10-100 倍! https://xie.infoq.cn/article/b2250c2d887f69d8519a3f50b
23.详解经典强化学习算法,搞定“阿尔法狗”下围棋在线策略方法试图评估并提升和环境交互生成数据的策略,而离线策略方法评估和提升的策略与生成数据的策略是不同的。 这表明在线策略方法要求智能体与环境交互的策略和要提升的策略必须是相同的。 而离线策略方法不需要遵循这个约束,它可以利用其他智能体与环境交互得到的数据来提升自己的策略。 https://cloud.tencent.com/developer/article/2280864