强化学习第2版第15章笔记——神经科学穷酸秀才大草包

正如我们在本书第1章的强化学习的早期历史部分(1.7节)所概述的,强化学习的许多方面都受到神经科学的影响。本章的第二个目标是向读者介绍有关脑功能的观点,这些观点对强化学习方法有所贡献。从脑功能的理论来看,强化学习的一些元素更容易理解。对于“资格迹”这一概念尤其如此,资格迹是强化学习的基本机制之一,起源于突触的一个猜想性质(突触是神经细胞与神经元之间相互沟通的结构)。

我们希望这一章给读者展现多种将强化学习以及理论基础与动物的基于奖励学习的神经科学理论联系起来的渠道。

15.1神经科学基础

神经元的轴突可以分很多叉,使神经元的动作电位达到许多目标。神经元轴突的分叉结构部分被称为神经元的轴突中枢。因为动作电位的传导是一个主动过程,与导火索的燃烧不同,所以当动作电位到达轴突的分叉点时,它会"点亮"所有输出分支上的动作电位(尽管有时会无法传播到某个分支)。因此,具有大型轴突中枢的神经元的活动可以影响许多目标位置。

突触通常是轴突分叉终止处的结构,作为中介调节一个神经元与另一个神经元之间的通信。突触将信息从突触前神经元的轴突传递到突触后神经元的树突或细胞体。除少数例外,当动作电位从突触前神经元的轴突传输到突触的时候,突触会释放化学神经递质(但有时神经元之间有直接电耦合的情况,但是在这里我们不涉及这些)。从突触的前侧释放的神经递质分子会弥漫在突触间隙,即突触前侧的末端和突触后神经元之间的非常小的空间,然后与突触后神经元表面的受体结合,以激发或抑制其产生脉冲的活性,或以其他方式调节其行为。一个特定的神经递质可能与几种不同类型的受体结合,每种受体在突触后神经元上产生不同的反应。许多不同的化学物质已被确定为动物神经系统中的神经递质。

突触释放的神经递质对突触后神经元产生影响的强度或有效性就是突触的效能。一种利用经验改变神经系统的方式就是通过改变突触的效能来改变神经系统,这个"效能"是突触前和突触后神经元的活动的组合产生的结果,有时也来自于神经调节剂产生的结果。所谓神经调节剂,就是除了实现直接的快速兴奋或抑制之外,还会产生其他影响的神经递质。

大脑含有几个不同的神经调节系统,由具有广泛分叉的树状轴突神经元集群组成,每个系统使用不同的神经递质。神经调节可以改变神经回路的功能、中介调整的动因、唤醒、注意力、记忆、心境、情绪、睡眠和体温。这里重要的是,神经调节系统可以分配诸如强化信号之类的标量信号以改变突触的操作,这些突触往往广泛分布在不同地方但对神经元的学习具有关键作用。

突触效能变化的能力被称为突触可塑性。这是学习活动的主要机制之一。通过学习算法调整的参数或权重对应于突触效能。正如我们下面要详细描述的,通过神经调节剂多巴胺对突触可塑性进行调节是大脑实现学习算法的一种机制,就像本书所描述的那些算法一样。

15.2奖励信号、强化信号、价值和预测误差

神经科学和计算型的强化学习之间的联系始于大脑信号和在强化学习理论与算法中起重要作用的信号之间的相似性。

奖励信号(以及智能体的环境)定义了强化学习智能体正试图解决的问题。就这一点而言,Rt就像动物大脑中的一个信号,定义奖励在大脑各个部位的初始分布。但是在动物的大脑中不可能存在像Rt这样的统一的奖励信号。我们最好把Rt看作一个概括了大脑中许多评估感知和状态奖惩性质的系统产生的大量神经信号整体效应的抽象。

强化学习中的强化信号与奖励信号不同。强化学习的作用是在一个智能体的策略、价值估计或环境模型中引导学习算法做出改变。对于时序差分方法,例如,t时刻的强化信号是TD误差。某些算法的强化信号可能仅仅是奖励信号,但是大多数是通过其他信号调整过的奖励信号,例如TD误差中的价值估计。

状态价值函数或动作价值函数的估计,即V或Q,指明了在长期内对智能体来说什么是好的,什么是坏的。它们是对智能体未来期望累积的总奖励的预测。智能体做出好的决策,就意味着选择合适的动作以到达具有最大估计状态价值的状态,或者直接选择具有最大估计动作价值的动作。

预测误差衡量期望和实际信号或感知之间的差异。奖励预测误差(rewardpredictionerrors,RPE)衡量期望和实际收到的奖励信号之间的差异,当奖励信号大于期望时为正值,否则为负值。当神经科学家提到RPE时,他们一般(但不总是)指TDRPE,在本章中我们简单地称之为TD误差。在本章中,TD误差通常不依赖于动作,不同于在Sarsa和Q学习算法中学习动作价值时的TD误差。这是因为最明显的与神经科学的联系是用动作无关的TD误差来表述的,但是这并不意味这不存在与动作无关TD误差的联系(用于预测奖励以外信号的TD误差也是有用的,但我们不加以考虑)。

实验证据表明,一种神经递质,特别是多巴胺,表示RPE信号,而且生产多巴胺的神经元的相位活动事实上会传递TD误差(见15.1节关于相位活动的定义)。这个证据引出了多巴胺神经元活动的奖励预测误差假说,我们将在下面描述。

15.3奖励预测误差假说

多巴胺神经元活动的奖励预测误差假说认为,哺乳动物体内产生多巴胺的神经元的相位活动的功能之一,就是将未来的期望奖励的新旧估计值之间的误差传递到整个大脑的所有目标区域。Montague、Dayan和Sejnowski(1996)首次明确提出了这个假说(虽然没有用这些确切的词语),他们展示了强化学习中的TD误差概念是如何解释哺乳动物中多巴胺神经元相位活动各种特征的。引出这一假说的实验于20世纪80年代、90年代初在神经科学家沃尔夫拉姆·舒尔茨的实验室进行。15.5节描述了这些重要实验,15.6节解释了这些实验的结果与TD误差的一致性,本章末尾的参考文献和历史评注部分包含了记录这个重要假设发展历程的文献。

Montague等人(1996)比较了经典条件反射下时序差分模型产生的TD误差和经典条件反射环境下产生多巴胺的神经元的相位活动。回顾14.2节,经典条件反射下的时序差分模型基本上是线性函数逼近的半梯度下降TD(λ)算法。Montague等人做了几个假设来进行对比。首先,由于TD误差可能是负值,但神经元不能有负的发放率,所以他们假设与多巴胺神经元活动相对应的量是δt-1+bt,其中bt是神经元的背景发放率。负的TD误差对应于多巴胺神经元低于其背景发放率的发放率降低量1。

虽然在Schultz等人的实验中,并不是每一个被监测到的多巴胺神经元都有以上这些行为,但是大多数被监测神经元的活动和TD误差之间惊人的对应关系为奖励预测误差假说提供了强有力的支持。然而,仍存在一些情况,基于假设的预测与实验中观察到的不一致。

15.4多巴胺

一个早期的传统观点认为,多巴胺神经元会向涉及学习和动机的多个大脑区域广播奖励信号。这种观点来自詹姆斯·奥尔德斯(JamesOlds)和彼得·米尔纳(PeterMilner),他们在1954年著名的论文中描述了电刺激对老鼠大脑某些区域的影响。他们发现,对特定区域的电刺激对控制老鼠的行为方面有极强的作用:“……通过这种奖励对动物的行为进行控制是极有效的,可能超过了以往所有用于动物实验的奖励”(Olds和Milner,1954)。后来的研究表明,这些对最敏感的位点的刺激所激发的多巴胺通路,通常就是直接或间接地被自然的奖励刺激所激发的多巴胺通路。在人类被试者中也观察到了与老鼠类似的效应。这些观察结果有效表明多巴胺神经元活动携带了奖励信息。

但是,如果奖励预测误差假说是正确的,即使它只解释了多巴胺神经元活动的某些特征,那么这种关于多巴胺神经元活动的传统观点也不完全正确:多巴胺神经元的相位反应表示了奖励预测误差,而非奖励本身。在强化学习的术语中,时刻t的多巴胺神经元相位反应对应于δt-1=Rt+γV(St)-V(St-1),而不是Rt。

最近使用光遗传学方法的实验证实了多巴胺神经元的相位反应作为强化信号的作用。

多巴胺强化作用的另外证据来自果蝇的光遗传学实验,尽管这些动物中多巴胺的作用与哺乳动物中的作用相反:至少对多巴胺神经元活化的群体来说,多巴胺神经元活性的光学触发像对脚电击一样来强化"回避行为"(Claridge-Chang等,2009)。虽然这些光遗传学实验都没有显示多巴胺神经元相位活动特别像TD误差,但是它们有力地证明了多巴胺神经元相位活动像δ在强化信号预测(经典条件反射)和控制(工具性条件反射)中那样起着重要作用(或许对果蝇来说像-δ的作用)。

多巴胺神经元特别适合于向大脑的许多区域广播强化信号。

如果多巴胺神经元像强化信号δ那样广播强化信号,那么由于这是一个标量信号,即单个数字,所以SNpc和VTA中的所有多巴胺神经元会被预期以相同的方式激活,并以近似同步的方式发送相同的信号到所有轴突的目标位点。尽管人们普遍认为多巴胺神经元确实能够像这样一起行动,但最新证据指出,多巴胺神经元的不同亚群对输入的响应取决于它们向其发送信号的目标位点和结构,以及信号对目标位点结构的不同作用方式。多巴胺具有传导RPE以外的功能。而且即使是传导RPE信号的多巴胺神经元,多巴胺也会将不同的RPE发送到不同的结构去,这个发送过程是根据这些结构在产生强化行为中所起的作用来进行的。

15.5奖励预测误差假说的实验支持

多巴胺神经元以激烈、新颖或意想不到的视觉、听觉刺激来触发眼部和身体的运动,但它们的活动很少与运动本身有关。这非常令人惊讶,因为多巴胺神经元的功能衰退是帕金森病的一个原因,其症状包括运动障碍,尤其是自发运动的缺陷。Romo和Schultz(1990)以及Schultz和Romo(1990)通过记录猴子移动手臂时多巴胺神经元和肌肉的活动开始向奖励预测误差假说迈出第一步。

他们训练了两只猴子,当猴子看见并听到门打开的时候,会把手从静止的地方移动到一个装有苹果、饼干或葡萄干的箱子里。然后猴子可以抓住食物并吃到嘴里。当猴子学会这么做之后,它又接受另外两项任务的训练。第一项任务的目的是看当运动是自发时多巴胺神经元的作用。箱子是敞开的,但上面被覆盖着,猴子不能看待箱子里面的东西,但可以从下面伸手进去。预先没有设置触发刺激,当猴子够到并吃到食物后,实验者通常(虽然并非总是)在猴子没看见的时候悄悄将箱中的食物粘到一根坚硬的电线上。在这里,Romo和Schultz观察到的多巴胺神经元活动与猴子的运动无关,但是当猴子首先接触到食物时,这些神经元中的大部分会产生相位反应。当猴子碰到电线或碰到没有食物的箱子时这些神经元没有响应。这是表明神经元只对食物,而非任务中的其他方面有反应的很好的证据。

15.6TD误差/多巴胺对应

一些TD误差与多巴胺神经元行为的不匹配可以通过选择对时序差分算法合适的参数并利用除CSC表示外的其他刺激表示来解决。Pan、Schmidt、Wickens和Hyland(200)发现即时使用CSC表示,延迟的资格迹可以改进TD误差与多巴胺神经元活动的某些方面的匹配情况。一般来说,TD误差的许多行为细节取决于资格迹、折扣和刺激表示之间微妙的相互作用。这些发现在不否认多巴胺神经元的相位行为被TD误差信号很好地表征的核心结论下细化了奖励预测误差假说。

15.7神经"行动器-评判器"

"行动器-评判器"算法同时对策略和价值函数进行学习。行动器是算法中用户学习策略的组件,评判器是算法中用于学习对行动器的动作进行"评价"的组件,这个"评价"是基于行动器所遵循的策略来进行的,无论这个策略是什么。评判器采用TD算法来学习行动器当前策略的状态价值函数。价值函数允许评判器通过向行动器发送TD误差δ来评价一个行动器的动作。根据这个评价,行动器会持续更新其策略。

"行动器-评判器"算法有两个鲜明特征让我们认为大脑也许采用了类似的算法。第一个是,"行动器-评判器"算法的两个部分(行动器和评判器)代表了纹状体的两部分(背侧和腹侧区)。对于基于奖励的学习来说,这两部分都非常重要——也许分别起着行动器和评判器的作用。暗示大脑的实现是基于"行动器-评判器"算法的第二个特征是,TD误差有着同时作为行动器和评判器的强化信号的双重作用。这与神经回路的一些性质是吻合的:多巴胺神经元的轴突同时以纹状体背侧和腹侧区为目标;多巴胺对于调节两个结构的可塑性都非常重要;且像多巴胺一样的神经调节器如何作用在目标结构上取决于目标结构的特征而不仅取决于调节器的特征。

评判器和行动器网络都可以接收多个特征,它们表示了智能体所在的环境的状态。从每个特征xi到评判器单元V的连接,以及它们到每个动作单元Ai的连接都有一个对应的权重参数,表示突触的效能。在评判器网络中的权重参数化了价值函数,在行动器网络中的权重参数化了策略。网络根据我们下一章中描述的"行动器-评判器"学习规则来改变权重进行学习。

在评判器神经回路产生的TD误差是改变的评判器和行动器网络权重的增强信号。

尽管在图15.5b中展示的"行动器-评判器"神经实现在某些问题下可能是正确的,但它明显需要提炼、拓展、修改,才有资格作为一个完整的多巴胺神经元相位活动的功能模型。在本章末的参考文献和历史评注部分引用了更详细的支持这一假说和反对这一假说的实证。我们现在具体来看看行动器和评判器的学习算法是如何揭示控制突触功能变化的规则的。

15.8行动器与评判器学习规则

如果大脑真的实现了类似于"行动器-评判器"的算法,并且假设大量的多巴胺神经元广播一个共同的强化信号到背侧和腹侧纹状体的皮质突触处,那么这个强化信号对于这两种结构的突触的影响是不同的。行动器和评判器的学习规则使用的是同样的强化信号,即TD误差δ,但是这两个部分对学习的影响是不同的。TD误差(与资格迹结合)告诉行动者如何更新动作的概率以到达具有更高价值的状态。行动器的学习有些类似于采用效应定律的工具性条件反射(1.7节),行动器的目标是使得δ尽可能为正。另一方面,TD误差(当与资格迹结合时)告诉评判器价值函数参数改变的方向与幅度以提高其预测准确性。评判器致力于减小δ的幅度,采用类似于经典条件反射(14.2节)中的TD模型的学习规则使幅度尽量接近于零。行动器和评判器学习规则之间的区别相对简单,但是这个区别对于"行动器-评判器"算法本质上如何起作用有着显著的影响。区别仅仅在于每种学习规则使用的资格迹的类型。

其中,γ∈[0,1)是折扣率,λwc∈[0,1]和λwa∈[0,1]分别是评判器与行动器的自举参数。αw>0和αθ>0是步长参数。

评判器单元的突触的非偶发资格迹意味着评判器单元的学习规则本质上是14.2节中描述的经典条件反射的TD模型。使用我们在上文对评判器单元和它的学习规则的定义,图15.5a中的评判器与Bartoetal.(1983)中的神经网络"行动器-评判器"算法中的评判器是相同的。显然,这样只有一个线性类神经单元的评判器只是一个最简单的起点,这样的评判器单元是一个更复杂的有能力学习更复杂价值函数的神经网络的一个代理。

图15.5a中的行动器是一个有k个类神经行动器单元的单层网络,并且在时刻t接收和评判器单元一样的特征向量x(St)。每一个行动器单元j,j=1,...,k,有自己的权重向量θj,但是由于所有的行动器单元都是相同的,所以我们只描述其中一个,并省略其下标。这些单元遵循上面的"行动器-评判器"算法的一种实现是:每一个单元均为伯努利逻辑单元。这意味着,每一个行动器单元的输出是一个取值为0或1的随机变量At。把值1看作神经元的放电,即放出一个动作单位。一个单元的输入向量的加权和θTx(St)通过柔性最大化分布(式13.2)决定了这个单元的动作被选择的概率,对于两个动作的情况即为逻辑回归函数:

与评判器突触只累积突触前活动x(St)的非偶发资格迹不同,行动器单元的资格迹还取决于行动器单元本身的活动,我们称其为偶发资格迹。资格迹在每一个突触都会持续衰减,但是会根据突触前活动以及突触后神经元是否发放增加或减少。行动器单元资格迹的突触后偶发性是评判器与行动器学习规则唯一的区别。由于保持了在哪个状态采取了怎样的动作这样的信息,偶发资格迹允许产生的奖励(正δ)或者接受的惩罚(负δ)根据策略参数(对行动器单元突触的功效)进行分配,其依据是这些参数对之后的δ值的影响的贡献。偶发资格迹标记了这些突触应该如何修改才能更有效地导向正值的δ。

我们这里讨论的使用效应定律学习规则的类神经行动器单元,在Bartoetal.(1983)的"行动器-评判器"网络中以一种比较简单的形式出现。这个网络受到一种由生理学家A.H.Klopf(1972,1982)提出的"享乐主义神经元"假说的启发。注意,不是所有的Klopf的假说的细节都与我们已知的突触可塑性的知识一致,但是STDP的发现和越来越多基于奖励调节的STDP的证据说明Klopf的想法并不太离谱。我们接下来将讨论Klopf的享乐主义神经元假说。

15.9享乐主义神经元

Klopf的享乐主义神经元假说超出了单个神经元是强化学习智能体的观点。他认为智能的许多方面可以被理解为是具有自私享乐主义的神经元群体的集体行为的结果,这些神经元在构成动物神经系统的巨大的社会和经济系统中相互作用。无论这个观点对神经系统是否有用,强化学习智能体的集体行为对神经科学是有影响的。接下来我们讨论这个问题。

15.10集体强化学习

当强化学习智能体群体的所有成员都根据一个共同的奖励信号学习时,强化学习理论可以告诉我们什么?多智能体强化学习领域考虑了强化学习智能体群体学习的很多方面。尽管讨论这个领域已经超出了本书的范围,但是我们认为知道一些基本的概念与结果有助于思考在大脑中广泛分布的神经调节系统。在多智能体强化学习(以及博弈论)中,所有的智能体会尝试最大化一个同时收到的公共奖励信号,这种问题一般被称为合作游戏或者团队问题。

15.11大脑中的基于模型的算法

对强化学习中无模型和基于模型的算法进行区分已经被证明对于研究动物的学习和决策过程是有用的。14.6节讨论了如何区分动物的习惯性行动与目标导向行为。上文讨论的关于大脑可能如何使用"行动器-评判器"算法的假说仅仅与动物的习惯性行为模式有关,这是因为基础的"行动器-评判器"算法是无模型的。那么怎样的神经机制负责产生目标导向的行为,又是如何与潜在的习惯性行为相互作用的呢?

使用功能性神经影像对人类的研究以及对非人灵长类动物的研究结果都支持类似的观点:大脑的不同结构分别对应于习惯性和目标导向的行为模式。

其他的研究确定了目标导向的活动与大脑前额叶皮质有关,这是涉及包括规划与决策在内的执行功能的额叶皮质的最前部分。具体涉及的部分是眶额皮质(OFC),为前额叶皮质在眼睛上部的部分。

另一个涉及基于模型的行为的结构是海马体,它对记忆与空间导航非常重要。

基于上述结果,产生了大量关于目标导向或基于模型学习和决策的潜在神经机制的研究文献,但是依然有很多问题没有被解答。

持续有神经科学研究指出,强化学习中无模型和基于模型的算法之间的区别,潜在地启发并增强了人们对大脑中习惯性和目标导向过程的理解。而对神经机制的更好的掌握,则可能会促使尚未在目标的计算强化学习理论中被探索的新型算法的产生,使得无模型和基于模型的算法特点可以结合在一起。

15.12成瘾

了解药物滥用的神经基础是神经科学的高优先目标,并有可能为这一严重的公共健康问题提供新的治疗方法。

多巴胺活动的奖励预测误差假说及其与TD学习的联系是Redish(2004)提出的包括部分成瘾特征的模型的基础。基于对该模型的观察。可卡因和一些成瘾药物的使用会导致多巴胺的短暂增加。在模型中,这种多巴胺激增被认为是增加了TD误差,其中δ是不能被价值函数变化抵消的。

成瘾行为比Redish模型得出的结果要复杂得多,但该模型的主要思想可能显示了这个难题中的一个侧面。

15.13本章小结

其他一些实验结果严格地证明了多巴胺神经元相位活动是一种可以用于学习的强化信号,它通过大量产生多巴胺的神经元的轴突到达大脑的多个区域。这些结果与我们在前文所做的对两种信号的区分是一致的,一种是奖励信号Rt,另一种是强化信号,在大多数算法中就是TD误差δt。多巴胺神经元的相位反应是强化信号,而不是奖励信号。

一个重要的假说是:大脑实现了一个类似于"行动器-评判器"算法的东西。

行动器与评判器可以通过人工神经网络来实现,该网络由一系列类神经元单元组成,它们的学习规则基于13.5节中所描述的策略梯度"行动器-评判器"方法。

突触资格的概念和行动器学习规则中的基本特征都来自于Klopf关于"享乐主义神经元"的假设(Klopf,1972,1981)。

多巴胺系统的显著特征是释放多巴胺的神经纤维可以广泛地投射到大脑的多个部分。

无模型和基于模型的强化学习之间的区别可以帮助神经科学家研究习惯性和目标导向的学习和决策的神经基础。

THE END
1.从强化学习到生成模型:ICML201840篇值得一读的论文机器之心在本文中,腾讯 AI Lab 的研究者结合自身的研究重心和研究兴趣对部分 ICML 2018 论文进行了简要介绍和解读,其中涉及的主题包括强化学习、元学习/迁移学习、自动超参数调节/架构搜索。当然,文中提到的论文一般都涉及多个主题,所提供的划分方式仅作参考。 强化学习 https://www.jiqizhixin.com/articles/2018-08-06-7
2.详解强化学习(ReinforcementLearning)(基础篇)强化学习(Reinforcement Learning)是机器学习的一个分支,主要研究智能体如何通过观察环境状态、执行动作和接收奖励来学习最优策略。强化学习的核心思想是通过持续与环境的交互来获得反馈并学习最优行为策略。 1.强化学习的底层原理: 强化学习的核心是马尔可夫决策过程(Markov Decision Process,MDP),它由五个要素构成:状态空https://blog.csdn.net/m0_73916791/article/details/134625384
3.持续学习与在线强化学习.pptx原理强化学习的关键组件和算法在线强化学习的挑战与解决方案持续学习在在线强化学习中的应用实例:在线强化学习案例研究持续学习与在线强化学习的前景总结与未来研究方向目录持续学习与强化学习简介持续学习与在线强化学习持续学习与强化学习简介1.持续学习是人工智能发展的重要趋势,它使得机器能够适应不断变化的环境,持续优化其https://m.renrendoc.com/paper/297429452.html
4.东莞厚街镇“三强化”持续发力,全面加强网格队伍建设为全面提升全镇网格员业务素质和工作效能,进一步增强网格员队伍凝聚力和战斗力,东莞厚街镇网格管理中心“三强化”持续加强网格员队伍建设,激发基层治理新活力,打造基层治理中坚力量,实现基层治理高效能,在镇“百千万工程”高质量发展中贡献网格力量。 一是强化学习培训 https://www.gdzf.org.cn/zwgd/content/post_157195.html
5.2020年媒体技术趋势报告:13大领域89项变革全输出这时,研究者将尝试应用分层强化学习(Hierarchical Reinforcement Learning)——能够发现高水准的行动,有条理地克服学习困难,最终以出乎人类意料的速度掌握新的任务。RL可以提升AI系统的“智能”,来使汽车能在非常规条件下自动驾驶,或者协助军用无人机实现之前尚未实现过的复杂动作。 https://36kr.com/p/5267903
6.OpenAIBaselines更新,新增HER强化学习算法OpenAI Baselines 更新,新增 HER 强化学习算法 AI 研习社按:富有挑战的新测试环境和任务,极具竞争力的基准模型,你感到兴奋和压力了吗? 为了方便快速开发迭代以及对比测试,各大人工智能机构都会在专门开发的模拟器(实验平台)内布置测试环境和测试任务,然后后续研究就只需要关注算法本身。OpenAI 就在自己的 Gym 平台中https://cloud.tencent.com/developer/article/1062830
7.锤炼忠诚品质锻造执纪铁军——洛阳市纪检监察机关持续强化干部洛阳市纪检监察机关坚持以政治教育、党性教育为重点,持续强化理论学习、铸牢政治忠诚,引导广大纪检监察干部深刻领悟“两个确立”的决定性意义,增强“四个意识”、坚定“四个自信”、做到“两个维护”,把旗帜鲜明讲政治落实到纪律建设、监督执纪等各项具体工作中。https://news.lyd.com.cn/system/2023/05/30/032415247.shtml
8.[量化]万字综述,94篇论文分析股市预测的深度学习技术2. 这项调研提出了一种用于股市预测的新的深度学习分类法。我们介绍了基于深度学习模型分类法的综述论文,包括基于RNN、CNN、基于GNN、Transformer和强化学习(RL)。此外,本调查总结了这些实验中涉及的数据集、评估方法和模型输入。 3. 本文讨论了基于深度学习的股市预测的开放问题,并对该领域的未来工作提供了深入思考。http://www.360doc.com/content/23/0519/03/1081259395_1081259395.shtml
9.《2020科技趋势报告》:AI和中国,成为未来科技世界关键词强化学习是解决决策问题的有力工具,它被用来训练人工智能系统以获得超人的能力。在计算机模拟中,一个系统尝试、失败、学习、实验,然后快速连续地再次尝试,每次都会改变它未来的尝试。 3.12 持续学习 目前,深度学习技术已经帮助系统学习以更接近人类所能做的方式解决复杂任务,但这些任务仍然是特定的,它们需要一个严格的序https://www.tmtpost.com/4274113.html
10.加强党员政治理论学习坚定理想信念可见党员加强党员政治理论学习的重要性,党组织如何引导党员也成为一项非常重要的工作。 一、以学铸魂,持续强化理论武装 坚持以习近平新时代中国特色社会主义思想为指导,深入学习贯彻党的二十大精神,积极构建支委成员联系党员、“老党员”与年轻党员互帮互学工作模式,发挥好支委成员示范带动作用,激活党员干部学习动力,营造“https://www.jianshu.com/p/1480f4971930