Asimplemodelforlearninginvolatileenvironments
一个在多变环境中学习的简单模型
摘要
引言
不确定性的动态——因此,学习率的动态——取决于所假设或学习的环境动态。例如,卡尔曼滤波器假设真实关联随机波动,但速度已知且恒定。在这种情况下,渐近不确定性和学习率由关联波动的速度以及它们被观察到的噪声程度决定。然而,在动态变化环境中,真实关联变化的速度本身可能会变化,不确定性(和学习率)应根据环境变化的速度上下波动[6,7]。这种规范分析与经典心理学理论平行,如Pearce-Hall模型[3],该模型认为意外结果增加学习率,而预期结果则降低学习率。这些模型通过实际结果与预期值之间的差异的绝对值(即无符号预测误差[3])来衡量惊奇。
理论研究确立了为什么学习率应动态调整的问题,而实证研究提供了学习率确实如此的证据。然而,对学习系统的完整理解还需要了解这些理论如何在过程或算法层面实现[17]。这一点目前尚不明确:如后文所述,基于统计的动态变化环境中学习的理论往往有些不切实际且晦涩。此外,尽管它们与Pearce-Hall等更为粗略和直接的心理学理论的类比似乎很清晰,但并没有直接映射,例如卡尔曼滤波器如何包含并合理化经典的Rescorla-Wagner理论。
在下一节中,我们将回顾卡尔曼滤波器算法,并介绍VKF背后的生成模型及其学习算法。完整的正式处理在S1附录中给出。接下来,我们展示了所提出的模型在预测实证数据方面优于现有模型。
结果
理论结果
卡尔曼滤波器在稳定动态环境中跟踪
这个方程表明,当卡尔曼增益相对较小时,自协方差较大,这意味着通过观察新结果传递的信息预期会非常小。我们将在下一节中看到,自协方差在动态变化环境中的推断中起着重要作用。
VKF:动态变化环境中跟踪的新算法
其中是观测噪声的常数方差。除了约束在单位范围内的波动性更新参数外,该算法还依赖于另一个参数,即波动性的初始值。值得注意的是,卡尔曼滤波算法是VKF的一个特例,其中,并且在所有试验中过程方差等于。在下一节中,我们使用合成和实证数据集测试该模型。
我们还为观测为二值的情况开发了VKF的二值版本。二值VKF的生成模型与VKF相同,唯一的区别是二值结果根据参数为的伯努利分布生成,其中是sigmoid函数,将正态分布的变量映射到单位范围。对于这个生成模型,推断更加困难,因为隐藏状态与观测之间的关系是非线性的。因此,需要进一步近似来进行推断,因为观测不是正态分布的,方程1不成立。对于二值VKF,我们假设后验方差w是常数,并采用矩匹配(有时称为假设密度滤波[29,30])来获得后验均值。由此产生的算法与原始VKF非常相似,唯一的区别是均值的更新规则(即方程10)略有不同:
模拟分析
比较VKF与已知真实值
在另一个模拟分析中,我们研究了二值VKF在类似任务中的性能,但现在观测值是二值的,这在之前的研究中使用过[6,8]。在这里,观测值从均值由环境隐藏状态给出的伯努利分布中抽取。隐藏状态是恒定的概率0.8或0.2,除了偶尔会反转。如图2所示,二值VKF的预测与隐藏状态匹配。此外,当环境发生剧烈变化时,波动性信号增加,并且在波动条件下学习率更高。类似的模拟分析显示,在更高波动性水平下,行为相同:波动性信号和学习率通常在环境频繁切换的波动块中更大(图3)。
比较VKF与粒子滤波器
比较VKF和HGF
因此,我们使用HGF的生成模型生成了一系列观测数据(见方法)。然后,我们使用生成的序列作为HGF推断算法的输入,使用真实的生成参数。我们重复了这个过程1000次。在这些模拟中,有82次HGF遇到了数值问题:其推断的轨迹遇到了数值问题,即顶层(波动)水平的后验方差估计为负。这个问题是由于HGF的近似推断模型中用于外推变分后验的泰勒近似所导致的。只有在剩下的918次模拟中,我们才能够量化HGF的误差,定义为预测的和真实的低层状态之间的不匹配(见方法)。我们还使用RBPF(在HGF生成假设下推导)[31]对相同生成的数据进行了推断,作为精确推断的代理。我们比较了这两个结果,以获得HGF相对于RBPF的分数相对误差的度量。类似地,我们量化了VKF相对于RBPF的误差:数据在VKF生成模型下进行模拟(见方法),然后作为VKF推断模型及其关联的RBPF的输入。这项分析揭示了HGF和VKF的相对误差分别为21.4%(SE=6.8%)和2.7%(SE=0.3%),表明VKF的性能比HGF更接近粒子滤波器。我们进行了多项控制分析,使用不同的参数集确认了这些结果,并使用与RBPF无关的替代基线(S1文本)。
波动性对二元结果学习率的影响
继Behrens的开创性研究[6]之后,大多数先前研究波动性估计的工作都使用了二元结果。从心理学的角度来看,这也非常重要,因为像Pearce-Hall这样的经典模型表明,学习率(或在该文献中称为“联想性”)反映了线索在过去令人惊讶的程度。事实上,现代决策神经科学中的学习理论部分建立在这一经典心理学思想之上,并且有证据表明,波动性引发的意外事件会增加人类在概率学习任务中的学习率[6,32–34]。
在这里,我们强调了HGF和VKF的二元版本在波动性与学习率关系上的一个关键差异。
使用实证数据测试VKF
接下来,我们使用两个实验数据集测试了VKF解释人类数据的解释力。在两个实验中,人类受试者执行了一个决策任务,反复在两个选项之间进行选择,其中只有一个选项是正确的。参与者在每次试验中都会收到二元反馈,指示该次试验中哪个选项是正确的。
为了对选择数据进行建模,二元VKF的预测结果被输入到一个softmax函数中,该函数具有一个决策噪声参数。我们首先通过使用合成数据集的模拟分析验证了这些参数可以被可靠地恢复,在这些合成数据集中,基于二元VKF和softmax生成了50个虚拟受试者的观测和选择数据(有关此分析的详细信息,请参见方法部分)。然后,我们使用分层贝叶斯推断(HBI)程序[35]将VKF的参数拟合到每个数据集,这是一种经验贝叶斯方法,其优势在于对个体受试者的拟合受到群体水平统计的约束。我们重复了500次此模拟分析。如表1所示,该分析揭示了模型参数可以相当好地恢复,尽管波动性学习率和初始波动性的估计更容易出错。
这个模型空间随后使用分层贝叶斯推断(HBI)[35]拟合到选择数据。重要的是,HBI结合了分层模型在参数估计中的优势[37]以及将模型身份视为随机效应的方法的优势[38],因为它假设不同的受试者可能表现出不同的模型,并在一次分析中同时估计模型的混合比例及其参数。因此,HBI通过量化模型在整个群体中的证据(拟合优度减去模型的复杂性[39])来进行随机效应模型比较。该分析揭示,在44名参与者中,VKF在37名参与者中表现优于其他模型(图9)。此外,支持VKF的受保护超越概率(即考虑到模型证据的差异可能是由于偶然性[40],某个模型在模型空间中比其他模型更常表达的概率[38,40])几乎等于1。在补充分析中,我们还考虑了粒子滤波器模型。由于该模型是一种蒙特卡洛采样方法,计算量过大,无法嵌入进一步的跨受试者和模型的分层估计中,因此我们分别对每个受试者拟合该模型,并将其与其他模型进行比较(详见S1文本)。该分析揭示,即使与粒子滤波器模型相比,VKF也是最简约的模型。
在这项工作中,我们提出了一种在易变环境中学习的新模型。与现有的易变环境学习模型相比,所提出的模型具有理论上的优势,因为它基于一种新颖的波动性生成模型,使得可以拥有一个简单的近似推断模型,该模型也非常忠实于精确推断。通过使用概率学习任务中的实证选择数据,我们展示了该模型比最先进的HGF更好地捕捉了人类行为。
卡尔曼滤波器是追踪理论的基石,在许多技术科学领域(包括心理学和神经科学)中得到了广泛应用[4,7,22,23]。例如,在运动神经科学中,卡尔曼滤波器被用作大脑如何追踪由运动指令引起的感官后果的模型。在学习理论中,卡尔曼滤波器为在多个预测目标刺激(如食物)的条件刺激中进行选择性注意提供了规范基础。然而,卡尔曼滤波器仅限于过程噪声结构恒定且已知的环境。与其他模型(如HGF)一样,VKF通过扩展卡尔曼滤波器以推断在波动环境中动态变化的过程方差,填补了这一空白。特别是,VKF包含两个自由参数:波动性更新率(即),表示过程方差动态中的噪声程度,以及波动性的初始值()。卡尔曼滤波器是VKF的一个特例,其中波动性更新率为零,恒定过程噪声等于。
在易变环境中学习的最新算法是HGF[8,18],它是一种灵活的滤波器,可以迭代扩展到任意深度的层次结构。VKF与具有两个潜在层次的HGF具有相同的条件依赖关系。然而,VKF和HGF之间存在两个关键差异。首先,两个模型中方差的生成过程不同。HGF假设在每个层次上进行加性高斯扩散,并通过指数变换使其作为下一层次的方差。相比之下,VKF的过程方差生成模型采用了一种乘性扩散形式,保证了非负性。其次,这些生成差异导致了算法上的差异。尽管两个模型都在变分近似下进行推断,但由于HGF中的非线性,无法解析地最大化变分族,因此需要额外的近似。如前所述,VKF的生成过程经过设计,允许对变分分布进行精确最大化。因此,总的来说,VKF为了实现对更具体(两个潜在链)情况的更简单和更准确的近似,放弃了HGF所基于的更一般的生成结构。我们比较了VKF和HGF在概率学习任务中预测人类选择数据的表现,类似于最近使用HGF建模的任务[8]。贝叶斯模型比较显示,VKF在大多数参与者中更好地预测了选择数据。
最近的研究强调了不确定性处理及其对学习率的影响在理解多种精神障碍中的重要性[33,34,43–45]。例如,Browning等人[33]发现,焦虑降低了人们根据波动性调整学习率的能力。在最近的一项研究[34]中,我们还发现,在由愤怒面孔图像引发的威胁情境中,社交焦虑的个体在从动作-结果关联的稳定性中获益方面表现出干扰。他们的背侧前扣带皮层(先前研究表明该区域反映了波动性估计[6,32])在这些情境中也未能反映波动性。这是因为焦虑的个体在稳定条件下过于迅速地更新了他们的预期,可能是因为他们将任何不确定性视为关联变化的信号(即波动性)。过程级模型(如VKF)可以在这一研究领域中发挥重要作用,我们希望这项工作对未来量化学习背后的关键计算有所帮助。
当前研究的目标是通过提出一个与最优统计推断紧密匹配的模型,进一步推进波动性的过程级模型,建立在过去15年中提出的众多研究基础上。由于精确推断是不可能的,这些研究依赖于不同的近似推断方法,如采样、泰勒近似、变分推断或消息传递算法。我们使用矩匹配处理二元观测的方法类似于最近用于研究动态系统的消息传递方法[46,47]。我们选择这种方法而不是之前使用的泰勒近似[18],因为已经证明,基于矩匹配的方法在近似二元高斯过程模型的精确推断时,比基于导数的方法表现更好[48]。
关于贝叶斯过程级模型的一个重要问题是它们的计算是否具有生物学上的合理性。与任何扩展卡尔曼滤波器的模型类似,VKF在计算卡尔曼增益时需要进行归一化。此外,我们的模型需要平方预测误差来更新波动性。尽管使用当前的神经网络模型执行这些计算可能并不直接,但它们并非生物学上不可行的。另一个关键问题是这些近似贝叶斯模型如何在机制层面上实现[49]。最近,可塑性变化(metaplasticity)被提出作为在不确定性下学习的一种机制原理[9,12,50]。
可塑性变化允许突触状态在没有显著改变突触效能的情况下发生变化[51],因此为波动性下的强化学习提供了一种机制[9]。
贝叶斯模型最近被用于在线推断环境中的突然变化[41,52]。尽管这些情况可以用具有离散变化点检测的生成过程进行建模,但Behrens等人[6]表明,具有波动性估计的模型可能与具有特定离散变化点的模型一样好,甚至更好。我们的模拟也表明,VKF可以成功应用于这些情况。在这些情况下,波动性信号扮演了连续变化点估计器的角色,在重大变化后显著增加。这是因为环境中的这些突然变化导致了“意外不确定性”信号的增加[7,11],从而显著增加了波动性。
在本文中,我们介绍了一种在不确定性下学习的新模型。VKF比现有模型更准确,并且比其他模型更好地解释了人类选择数据。这项工作为在健康和精神疾病条件下表征不确定环境中决策背后的神经过程提供了新的机会。
方法
比较VKF与基准的模拟分析
比较VKF和HGF准确性的模拟分析
具有2个层次的HGF的生成模型基于一个概率模型,其依赖性与我们的生成模型(图1)相同。在该生成模型下,3条随机变量链以层次结构组织,生成观测值。
其中>0是第三层的方差,>0决定了第三层对第二层的影响程度,表示第二层的基线方差水平,是观测噪声。
参数恢复分析
对于此分析,数据基于二元VKF生成(公式14-19)。具体来说,试验的观测值是基于1的sigmoid变换随机抽取的。选择数据也是通过应用softmax作为响应模型(参数)随机生成的。与实验1类似,对于每个虚拟受试者,我们假设4个观测和动作序列(即4个线索),每个序列有120次试验。这些值作为群体参数使用:=0.2,0=5,=1,=1。为了生成模拟的合成数据集,分配给每个模型的受试者群体参数(50名受试者)从标准差为0.5的正态分布中抽取。
选择数据分析的模型实现
我们考虑了一个3层(二元)HGF[18]用于选择数据分析,参数为0<<1,0<<1,和。我们还考虑了的常数参数为-4,如Iglesias等人[8]所述。然而,由于具有自由的原始HGF在使用最大后验概率估计和随机效应模型比较[38,40]时优于此模型,因此我们在与二元VKF的模型比较中包含了原始HGF。与HGF工具箱类似,我们假设第二层和第三层的初始均值分别为0和1,第二层和第三层的初始方差分别为0.1和1。对于实现二元VKF,我们假设初始波动性参数0的上限为10。
这里使用的所有人类受试者数据都是对先前发表的研究中匿名化数据的重新分析。实验1中的人类受试者数据来自一项研究[36],该研究由当地伦理委员会(“ComissieMensgebondenOnderzoek”Arnhem-Nijmegen,荷兰)批准。实验2中的人类受试者数据由Jang等人[42]报告,该研究由布朗大学机构审查委员会批准。
实验1
每个学习模型都与一个选择模型结合,以生成选择数据的概率预测。根据sigmoid(softmax)函数,使用期望值计算动作1(执行反应)和2(不执行反应)的概率:
其中对于VKF等于,对于HGF等于2(1)1(如HGF工具箱中实现)。此外,是决策噪声参数,编码了学习到的关联对选择的影响程度(约束为正),()是由于刺激呈现而独立于学习值的1的偏差。偏差基于三个自由参数定义,分别表示由于情感内容(快乐或愤怒)引起的偏差,由于刺激提示的预期结果效价(奖励或惩罚)引起的偏差,以及由于情感内容和结果的交互作用引起的偏差。未对这三个偏差参数施加约束。例如,的正值表示对快乐刺激倾向于执行反应,对愤怒刺激倾向于避免执行反应(无论预期值如何)。类似地,的正值表示对奖励刺激倾向于执行反应,无论执行反应的预期值如何。关键的是,我们还考虑了由编码的偏差中的交互效应的可能性。因此,对于快乐和奖励刺激的偏差为++,对于愤怒和惩罚刺激的偏差为+,对于快乐和惩罚刺激的偏差为,对于愤怒和奖励刺激的偏差为+。
实验2
该实验由Jang等人[42]进行,旨在测试控制强化学习的计算信号对情景记忆的影响。学习任务包括160次试验。在每次试验中,首先呈现试验值,然后是图像(来自生物或非生物类别之一)、反应(玩或通过)和反馈。反馈取决于参与者的反应,并给出图像类别的奖励概率。因此,如果参与者选择玩并且试验是奖励性的,他们将获得显示为试验值的奖励。如果他们选择玩并且试验不是奖励性的,他们将失去10分。如果选择通过,参与者不会获得任何奖励(即0分),但会显示选择玩的假设奖励。数据通过AmazonMechanicalTurk收集。
为了对选择数据进行建模,使用参数的softmax函数作为响应模型,其中玩的期望值基于学习模型估计的奖励概率和每次试验开始时显示的试验值计算。在输入softmax之前,期望值除以100(任务中的最大试验值)以避免数值问题。
模型拟合与比较
我们使用了一种分层贝叶斯推断方法,HBI[35],来拟合模型到选择数据。HBI在模型拟合和比较中具有优势,即对个体受试者的拟合受到基于群体水平统计的分层先验的约束(即经验先验)。此外,HBI采用随机效应方法进行参数估计和模型比较,并基于责任参数(即模型解释每个受试者选择数据的后验概率)计算群体水平统计和模型证据。HBI量化每个模型的受保护超越概率和模型频率,以及群体水平的平均参数和相应的分层误差。该方法在无限实数空间中拟合参数,并将其转换为输入模型的实际参数。为此,使用了适当的转换函数:sigmoid函数用于转换单位范围内或有上限的参数,指数函数用于转换正数范围内的参数。为了确保HGF在拟合参数的初始先验均值(即零)处是良好定义的,我们假设=1,其中是拟合参数。
**补充材料**
**VKF与HGF比较的控制分析**
我们首先验证了尽管两个生成模型的参数化不同,但它们的参数模型在跟踪潜在状态的最终推断问题上处于可比较的范围。特别是,基于高斯随机游走的较低层信号的逐次试验变化的中位数在两个模型中是可比较的。对于HGF和VKF,所有模拟的这一指标的平均值分别为1.84和1.93。
模型的性能可能取决于决定波动性信号变异性的参数。在HGF和VKF中,这分别取决于和。因此,我们在不同的参数范围内进行了第二次分析,将HGF的从0.5(原始分析)减少到0.25,将VKF的从0.15(原始分析)减少到0.1。HGF和VKF的相对误差分别为8.20%(SE=0.6%)和3.2%(SE=0.3%)。如上定义的较低层信号的逐次试验变化指标对于HGF和VKF分别为0.68和1.01,表明参数生成了可比较的信号,如果有的话,VKF的跟踪问题在潜在变量稍微不稳定的情况下稍微困难一些。
在所有模拟中,VKF和HGF的相对误差分别为5.5%(SE=0.4%)和46.6%(SE=6.7%),表明VKF的推断更接近理想化的卡尔曼滤波器。
以下表格总结了在由各自生成模型生成的时序数据上,VKF和HGF在两组参数下的推断准确性比较结果。
**二元结果波动性对学习率影响的控制分析**
**实证数据个体水平模型拟合**
除了正文中讨论的HBI分层拟合方法外,为了验证结果的普遍性,我们还使用拉普拉斯近似在个体受试者水平上对实证数据进行了模型拟合。对于正文中报告的四个模型,这相当于HBI的第一轮迭代。我们还在这项分析中包含了粒子滤波器(PF)模型,使用了一个简单的采样程序(1000个样本),首先抽取VKF的生成参数(即0和),然后根据这些参数拟合PF(10000个粒子)以获得逐次试验的预测,最后使用拉普拉斯近似拟合响应模型的参数。为了量化受试者水平的模型证据,我们使用贝叶斯信息准则(BIC)来考虑生成参数。下表显示了两个实验的模型频率(MF)和受保护超越概率(PXP)的结果。
**补充附录**
**易变环境中学习的简单模型**
PayamPiray和NathanielD.Daw
**附录A**
在本附录中,我们对VKF进行了正式处理。我们首先回顾状态空间模型及其推断原则。接下来,我们解释了两种具有不同类型噪声的特定状态空间模型。第一个是卡尔曼滤波器,这是一个众所周知的模型,其中噪声是加性的且高斯分布的。然后,我们提出了另一个基于非高斯状态空间模型的空间模型,其中噪声是乘性的。在关于噪声的某些假设下,这些模型的推断是可处理的。基于这两个可处理模型,我们随后能够通过使用结构化变分推断这一强大技术,为易变环境中的推断提供近似解决方案。该技术利用了不可处理模型中可处理子结构上的精确推断算法,并提供了一种近似变分解决方案。
**A.1状态空间模型**
我们首先描述状态空间模型,其中观测序列{ui}(i=1,...,t)通过指定观测与潜在状态序列{si}之间的概率关系以及连接潜在状态的马尔可夫结构来建模。状态空间模型假设:i)ut在给定st的情况下独立于所有其他观测和状态,ii)st在给定st1的情况下独立于所有其他状态。因此,状态空间模型的联合分布由以下公式给出:
A.2Kalmanfilter
**A.4易变卡尔曼滤波器**
在本节中,我们为易变环境中的通用预测问题提供了解决方案。具体来说,考虑一个在试验t中,潜在随机变量xt由其前一个值xt1加上一些高斯噪声给出,其精度由另一个动态随机变量zt给出: