AFactorGraphDescriptionofDeepTemporalActiveInference2017
深层时态主动推理的因子图描述
摘要
**关键词**:主动推断,自由能原理,因子图,信念传播,消息传递,多尺度动力系统
1.**模型规范**:为代理的感官观察指定概率生成模型。在生物学上,这始于有机体的基因型,由DNA编码。对于希望模拟主动推断过程的科学家或工程师来说,这项任务涉及实际指定所研究的概率模型。
对于旨在模拟主动推断过程的科学家来说,拥有一个“VFEM软件工具箱”将非常有帮助,该工具箱可以为广泛的概率模型自动化推理过程。如果这样的工具箱可用,科学家的工作流程将包括提出新的候选模型,并通过调用VFEM工具箱中的适当函数来评估这些模型的性能。在没有这样的VFEM工具箱的情况下,科学家可能会被迫手动推导特定于模型的VFEM更新方程,这对于大型模型来说很快就会成为一个几乎无法克服的障碍。因此,合成主动推断的速度和质量取决于伴随候选模型分析的推理任务的润滑。
自动化推理工具的影响不仅限于快速模拟,还支持对生物主动推断过程本身的研究。主动推断本身就是一个自动化科学探究过程的模型,其中所有任务(试验设计、试验执行、性能评估和适应)都作为概率模型上的推理任务执行。从工程师的角度来看,开发基于主动推断的人工代理,通过与环境的情境交互学习有目的的行为(例如,音频或视频处理任务),是一种诱人的设计策略(例如,VandeLaar和DeVries,2016)。
软件工具箱自动化概率推理的潜在巨大影响也在机器学习社区中得到认可。在“概率编程”的标题下,目前正在进行各种开发自动化推理工具箱的倡议(Lunnetal.,2000;Minkaetal.,2014;Salvatieretal.,2016;Tranetal.,2016;Carpenteretal.,2017)。特别是最近关于黑箱变分推断(BBVI)的工作在自动化推理模拟的背景下很有趣(Ranganathetal.,2014;Taylor,2016;Tranetal.,2016)。然而,在研究大脑时,我们不仅对自动化推理感兴趣,还对这些推理过程的生物学上合理的实现感兴趣。这一特征在当前的BBVI研究路线中并不是一个硬性标准。
与其依赖自动化推理工具箱,不如尝试开发一种生物学上可行的主动推断过程理论(Bastosetal.,2012;Fristonetal.,2017a)。这些理论伴随着“SPM工具箱”中的自由可用软件模拟(Friston,2014)。SPM工具箱确实支持广泛的演示,但不支持用于指定具有自动化推理支持的新候选模型的脚本语言。最近的工作集中在主动推断过程的图形模型描述上(Fristonetal.,2017c)。本文提供了一种图形模型变体的教程介绍。
在本文中,我们介绍了Forney风格因子图(FFG)作为支持自由定义生成模型的视觉表示和通过生物学上合理的消息传递算法进行推理自动化的工具(Forney,2001)。Forney风格因子图是一种图形模型,与贝叶斯网络和马尔可夫随机场等类似框架共享品质(KollerandFriedman,2009)。FFG图提供了生成模型的视觉直观表示,这对于构成分层主动推断过程的复杂模型尤其有益(预览图7为例)。与贝叶斯网络和BBVI工具相比,FFG还提供了基于消息传递的推理过程的精确视图和描述。因此,FFG中的推理提供了生物神经推理过程可能如何执行的规范描述(在计算抽象级别上)。
FFG最初是作为图形框架开发的,用于自动化基于推理的(解)码过程。大约十年前,一系列论文揭示了许多经典信号处理算法可以被视为FFG上的消息传递算法(例如,Loeliger,2004;Dauwelsetal.,2005a,b;Dauwels,2007;Loeligeretal.,2007)。最近,FFG在控制理论(HoffmannandRostalski,2017)、线性代数(Al-Bashabshehetal.,2011)、量子力学(LoeligerandVontobel,2017)、音频处理算法设计(VandeLaarandDeVries,2016)和涡轮均衡(GuoandPing,2008)等不同领域找到了应用。
总之,在黑箱和模型特定模拟框架之间,FFG形式主义为描述和模拟复杂主动推断过程提供了一种视觉直观且生物学上可行的图形过程理论。
2.使用因子图的概率建模
由于当x、y和z是向量变量时,这个表达式也是正确的,因此总是可以将任何子集的干扰变量从系统中积分出去,并对任何子集的观测变量进行条件化。因此,贝叶斯推断的问题主要是一个计算问题,因为分母中的积分(或求和)通常是难以处理的。例如,在离散字母表上,如果y和z共同包含20个维度,且每个维度定义在10个值上,那么分母包含10^20项。
2.1.Forney风格因子图
如果模型可以分解,推断的计算负荷可以大大减少。考虑模型
及其对应的Forney风格因子图(FFG)如图1A所示。在FFG中,每个因子由一个节点表示,每个变量由一条边表示。如果边变量是节点函数的参数,则该边连接到节点。仅出现在一个因子中的变量(例如,x6)由半边表示。在本文中,我们将假设全局函数f和因子f都表示概率分布。
请注意,变量名称在FFG中最多可以出现在两个因子中,因为一条边只有两个端点。对于模型
由于因子的分解,我们可以通过分配律将其分解为
这个模型包含的计算量远少于方程(4)中的完整6维积分。
为了区分前向消息和后向消息,绘制带有指向箭头的图(如图2所示)可能是有用的。不过,原则上,FFG(因子图)是一个无向图,箭头的方向没有计算上的影响。
消息是通过将图2中红色框内的所有因子相乘,然后对所有边完全在框内的变量进行边缘化得到的,即,
这种“封闭盒子”操作的结果是,它产生了一个函数,该函数是那些穿过盒子边界的变量的函数,在这种情况下是x3。这个函数被称为求和-乘积消息,而不是在FFG中绘制盒子,习惯上是在边缘旁边用一个小箭头来表示消息。
如果全局函数f是一个联合概率分布,那么消息表示一个关于x3的概率分布,它编码了包含在红色盒子内对x3的信念。同样,围绕节点fd到fg的蓝色盒子封闭起来会导致消息,它持有包含在x3边右侧子图中的对x3的信念。通过乘以前向和后向消息来获得x3的边缘,即。这种乘法融合了来自x3边左右两侧子图关于x3的信息。
封闭盒子的过程可以嵌套,直到每个盒子包含一个节点,该节点有(可能多个)传入消息和一个传出消息,例如,参见图2中的嵌套来计算。因此,通过从终端节点向x3传递求和-乘积消息,可以在FFG中推断边缘。在这个视角中,每个节点仅处理本地传入的消息以产生传出消息。节点的求和-乘积更新规则简单地是所有传入消息与因子的乘积,然后是对传入边上的变量进行边缘化,参见图3A。这是基于消息传递的封闭盒子规则的重写。例如,的求和-乘积更新规则可以写成(也参见图2)
很容易验证,将封闭盒子规则应用于终端节点会得到因子本身作为求和-乘积消息,例如,。来自半边(例如,x6)的传入消息总是等于1。这可以通过意识到在图中添加一个终端节点不会改变全局函数来简单检查。换句话说,来自半边的传入消息是无信息的。
为了计算图中所有边缘的边缘(对于所有边缘),我们从终端和半边的传入消息开始,并继续进行,直到每条边缘都有前向和后向消息。求和-乘积定理指出,如果图是一棵树,那么在一条边上的前向和后向消息的乘积就会产生相应变量的确切(贝叶斯)边缘(Kschischang等人,2001)。如果图包含循环,则不能保证这个结果。在实践中,通过迭代消息传递更新,在循环图中经常获得良好的近似推断结果,就好像循环图被展开成一棵深树一样(VasudevaRaju和Pitkow,2016)。文献中也使用“信念传播”这个术语来描述通过在一般图上迭代求和-乘积消息传递的推断近似(这个术语最初由Pearl在1982年引入)。
将封闭盒子过程应用于一组节点,会产生一个新的“复合”节点,该节点隐藏了盒子的内部结构,而不影响与图其余部分的接口。这是FFG的一个非常有吸引力的特性,它提供了网络结构的层次视图。例如,在图2中,围绕fa、fb和fc封闭红色盒子会产生一个新的节点fababc(x3),其因子(和传出消息)由方程(6)给出。将封闭盒子过程应用于整个图会产生一个数字(不是变量的函数)。这个数字等于该图的贝叶斯证据。
消息传递有一个有趣的解释,它与自由能原理中的惊奇最小化观点非常契合。一个节点的传出消息(与)是传出边变量的后验概率分布,在通过边缘化处理了盒子中的所有信息之后。将变量x的概率分布p(x)转换为该变量的惊奇(或自信息),是很容易的。因此,从惊奇的角度来看,节点处理是为了解释掉传入的惊奇,并在传出消息中传递剩余的惊奇。当没有惊奇剩下时,就没有什么需要沟通的了,消息也就变得没有信息量了。换句话说,消息传递是一个分布式的惊奇最小化过程。
2.3变分消息传递
考虑一个模型(p(z,o)),其中(o)收集所有观测值,(z)包含系统中的所有隐藏变量,包括状态(s)、控制(u)和参数。贝叶斯推断的目标是计算潜在变量的后验(p(z|o))和模型证据(p(o))。我们不精确计算(p(z|o)),而是考虑一个近似解(q(z)),称为提议(或识别)分布。(吉布斯)自由能(FE)泛函定义为:
公式(8)并不是唯一的自由能泛函。Minka(2005)讨论了一类基于信息散度的损失函数,这些函数导致了不同的消息传递算法。事实上,和积消息传递也可以通过最小化所谓的贝叶斯自由能(Yedidia等人,2005)来推导。没有根本的理由反对在图中的不同边上结合不同的消息更新规则,例如,和积消息传递可以很容易地与变分消息传递(Riegler等人,2013)结合。
总结来说,Forney风格的因子图不仅提供了一种视觉上直观的表示,还为通过消息传递最小化概率模型的自由能泛函提供了一种强大的计算过程理论。
3.线性动态系统与卡尔曼滤波
Forney风格的因子图在通过消息传递自动化动态系统推断方面特别有用。在本节中,我们描述了一个简单线性高斯动态系统的FFG和消息传递推断,这是更复杂结构的重要构建模块。
3.1.模型规范线性高斯动态系统(LinearGaussianDynamicalSystem,简称LGDS)由以下方程描述:
3.2.通过消息传递的卡尔曼滤波
因此,等式节点的外出消息涉及传入消息的乘积。对于高斯输入消息,这意味着外出消息也是一个高斯消息,其均值为传入消息的精度加权均值之和,精度为传入消息的精度之和。显然,图4B中的等式节点用于实现贝叶斯规则。传入消息3可以解释为基于先验的状态预测消息,而消息6是处理观测值的似然消息。消息7通过贝叶斯规则融合先验预测和似然消息的信息。有关通过求和乘积消息传递进行Kalman滤波的完整描述,请参见Loeliger等人(2007)。
对于大量简单节点函数,可以推导出解析的求和乘积更新规则。表1展示了一些常见因子的更新规则。在计算机模拟环境中,如果这些规则存储在查找表中,则可以在自由定义的图中自动执行推理。对于某些复合节点,例如通过在图4A中围绕等式节点和似然因子A画一个框,也可以将消息制成表格。与其在复合节点内部传递消息,不如通过自定义算法计算消息(从复合节点传出),这可能在计算上更有优势。使用这种方法,Loeliger等人(2007)和Loeliger等人(2016)提出了复合节点的消息更新规则,这些规则有助于Kalman滤波,并提高了数值稳定性和计算负载。
3.3具有控制信号的动态系统
我们现在考虑LGDS模型的一个扩展,其中状态转移模型可以由另一个代理控制。当我们考虑分层系统时,这一特性将变得重要。为了简化,我们假设状态转移模型由以下公式给出:
其中β是一个标量增益,见图4C。从原始LGDS(没有β的先验)的角度来看,β可以解释为影响状态转移模型的外部控制信号,而先验p(β)可以视为控制器的模型。控制器节点可能包含一个大型网络,该网络在图4C中被包含在复合节点p(β)中。假设我们感兴趣的是从观测中学习一个合适的控制器。这将涉及通过图4C中的消息8–10扩展Kalman滤波消息序列。消息10包含从观测o_t获得的新信息,关于β。在附录A中,我们推导了消息10的高斯变分消息。
4.分层动态系统
4.1模型规范
第二层的生成模型由以下公式给出:
虽然这一组方程构成了生成模型的精确规范,但在分层模型中跟踪上标中的上下文的符号开销相当繁琐。这是另一个原因,图形FFG表示法更受分层模型的青睐。
4.2推理
存在各种消息传递序列计划和更新规则,但所有方案都依赖于自上而下的预测传递,随后是自下而上的校正步骤。图6展示了一个可能的中间层消息传递计划。
注意,中间层的图包含环。这是一个问题,因为后向和前向求和乘积消息的乘积不再保证等于边际分布。在实践中,可能需要对每条边进行多次迭代更新,以收敛到一个足够好的近似推理过程。
Forney风格的因子图使得可视化这种迭代更新计划的工作变得容易。在图6中,我们将中间层的图划分为两个简单的(即无环的)子图。在这些标记为layer-2a和layer-2b的子图中,通过一次前向-后向传递可以获得正确的边际。推理过程首先将完整图划分为简单子图。每个简单子图自主处理传入的证据。当新证据通过其终端的传入消息呈现时,子图首先更新隐藏变量的边际,然后更新传出消息。
让我们考虑图6中中间层的这个过程。我们假设顶层发送一条包含顶层状态(s_t)信念的消息(标记为1)。Layer2a现在将更新其隐藏状态的边际,并将新证据的影响传递到其终端。我们可以忽略后向消息,因为还没有来自layer2b的传入证据。Layer2a将通过前向传递将消息1的效果传播到layer2b,结果是消息3、5和6。
Layer2b现在有来自layer2a的新证据,并且没有来自较低层的新证据。与layer2a类似,layer2b将通过前向(预测)传递处理传入消息,结果是传出消息7、11、13和16。
Layer2b现在将等待通过消息17-20将其底部终端的校正证据传递进来。接下来,通过消息21-26在Layer2b中更新内部边际,并通过消息27-29将任何剩余的自由能传递到layer2a。反过来,layer2a通过消息30-31更新其内部状态,并通过消息32将未解释的证据传递到layer1。
因此,在完整图级别上,推理通过逐层前向预测传递进行,随后是基于在每层收集的证据的校正后向传递。注意,在layer2b基于来自layer1的传入证据更新其内部状态的边际后,原则上它可以更新传出消息,既可以向layer2a,也可以返回layer1。换句话说,在将结果发送到图的其他部分之前,可以在两个子层(例如,layers1和2a)之间迭代更新。关于什么是最佳调度策略,目前几乎没有理论。将这个“推理调度”问题本身视为受自由能原理约束的策略推理过程的解决方案,是一个未被探索但引人入胜的想法。
5.1模型规范
策略模型的选择
在强化学习设置中,通常指定一个“奖励”函数,并选择旨在最大化预期未来奖励的策略。相比之下,主动推理系统(包括其策略模型)遵循自由能原理,因此不使用外部定义的奖励函数。相反,主动推理过程使用的唯一信息是它将在未来最小化自由能的自我知识。因此,唯一的自洽策略选择过程是选择最小化预期未来自由能的控制。
“生成”策略模型由以下公式正式指定:
注意,该模型并不直接指定预期自由能。相反,这是一个控制(策略)的生成模型,通过自由能最小化的前向推理传递,导致策略的预期自由能先验(见第5.2节)。这个生成策略模型需要访问动态系统模型的副本,以便模拟未来。在正式的生成模型规范中,我们使用变量名上的条形符号来区分策略模型中的状态和观测变量与常规动态系统中的“镜像”变量。
推理过程
首先,上层的状态在layer2a中用于通过消息1-11推断状态和观测的先验。这些先验指定了期望的未来状态轨迹和观测模式,从而取代了外部奖励函数的需要。
初始状态消息3现在被layer2b用于通过消息12-18向前运行动态系统。为了计算消息13(状态转移),节点需要消息12和来自的传入控制消息46。控制消息最初设置为无信息消息,对每个控制选项进行同等加权。也可以使用对可接受控制的替代先验。这个前向传递导致对未来状态和观测的预测。
接下来,layer2a的传出消息被layer2b处理,就好像它们是layer2b的观测一样。Layer2b通过后向传递(消息19-23)处理这些先验,从而更新layer2b中隐藏状态的边际。
在推断出动态系统的“期望”未来隐藏状态后,layer2b将在消息25-26中推断适当的控制信号。这些控制信号旨在引导layer2c中的状态转移,以实现layer2a中先验编码的奖励状态轨迹。
消息24-26现在被layer2c通过消息27-34进行前向传递,以推断层内和下层观测的预测。实际观测证据通过消息35-38传递到layer2c,并在layer2c中通过消息39-44进行校正后向传递进一步处理。Layer2c中的后向和前向消息结合,更新隐藏状态的边际。
在layer2c的状态通过观测证据校正后,layer2c通过消息45-47将更新后的信息向上传递到初始状态和控制边。
为了避免使图表更加杂乱,我们没有绘制将校正推回layer2b、layer2a,然后向上传递到更高层的消息。
消息25和26涉及控制信号,这些信号最小化动态系统中的预期自由能。消息46和47在观察到证据后对这些控制信号进行校正。前向和后向消息对(25,46)和(26,47)相乘以校正控制信号的边际(类似地,24和45结合以更新初始状态的边际)。
在初始状态和控制信号的边际更新后,我们可以再次向前运行layer2b,以获得状态的校正预测。
接下来,layer2a以两种方式处理这些更新后的预测。校正可能部分被吸收,通过更新的先验。这是一个学习步骤。剩余的自由能通过状态的后向消息传递到上层。
6.讨论
欣赏主动推理层中的对称性是很有趣的。再次考虑图7中的中间层。蓝色子图是展开的状态空间模型,由实际观测终止。绿色子图是相同状态空间模型的副本,但现在由先验终止。后向消息流将来自层内和下层观测的证据转移到先验中。剩余的自由能被推到更高层。
在本文中,我们几乎没有触及学习问题。有目的行为的学习依赖于更新生成模型参数(A,B等)的先验。在贝叶斯上下文中,参数更新在概念上与动态系统中的状态更新没有区别。从卡尔曼更新方程(特别是等式节点的求和乘积更新规则)中可以明显看出,动态系统中潜在变量的适应量在微妙的方式上取决于基于先验的状态预测的精度与校正证据(似然)的精度之间的比率。
这些精度变量(像所有变量一样)由FFG中的边表示,并且通过这些边上的消息传递动态地改变对精度的信念。在真实的神经电路中,多个并行操作的主动推理列可能通过横向连接上的消息传递直接影响其他列中对精度的动态信念(Kanai等人,2015)。在FFG图中,这些复杂电路看起来像具有水平和垂直连接的矩阵。为了推进对这些复杂神经结构的研究,有必要在计算机模拟中模拟这些网络的行为。黑箱变分推理工具箱可能不会提供任何关于底层神经惊奇最小化机制的见解,同时这些网络可能过于复杂,无法允许手动推导神经消息传递信号。
在本文中,我们将Forney风格的因子图框架作为一个替代候选形式主义,用于研究复杂神经电路的行为。FFG提供了因子分解概率模型的直观视觉表示。简单的关闭盒子规则通过创建复合节点导致更高的视觉抽象级别,并基于消息传递的惊奇最小化。原则上,FFG中的惊奇最小化在自由定义的图中是可自动化的。实际上,开发高质量的FFG模拟工具箱并非易事。目前,我们团队在埃因霍温理工大学正在开发一个用于模拟广泛动态FFG模型中推理过程的工具箱。我们希望在2018年的某个时候发布所展示图的模拟结果和该工具箱的第一个公共版本。
7.结论
我们非常清楚,当前的论文留下了许多开放问题,但我们希望这篇论文能够激发神经科学界对因子图作为复杂生成神经模型的描述工具的兴趣。