神经网络新范式——LNDP：可终身学习的自主发育程序世纪拓扑神经元自组织大模型人工神经网络|深层神经网络_在线学习

近年来人工智能的高速发展离不开深度神经网络的应用，深度神经网络的发展是从大数据和硬件算力设备大规模发展之后才逐渐占据了人工智能的核心研究地位的，在此之前人工智能的研究都是以可解释性强、计算力小的统计学模型为主，但是以统计学为主的人工智能模型缺点非常明显，那就是大多数研究都是基于实验室级别的，由于不善于处理大量的非结构化数据，传统的统计学模型一直没有大规模的使用在实际的生产应用当中。

自从2006年，加拿大多伦多大学的GeoffreyHinton等人提出了深度学习的概念，人工智能从此进入了新的时代，以仿生学为基础的深度学习模型和以往的统计学模型相比，最大的优势就是它可以大规模的处理现实世界中的各类数据，学习这些数据中的特征规律，从而能够掌握一些能够使用在现实生产中技能，这对于提高生产效率有着非常大的帮助。虽然深度学习模型也有其不可避免的缺点，比如需要大规模的数据，大型的算力资源，以及不可解释性等，但是和其带来的收益相比，这些都不是能够阻拦其发展的阻力。

深度学习的发展在2023年开始又进入了一个新的阶段，以ChatGPT、Sora等为代表的大模型进一步解放了生产力，提高了生产效率。对与数据资源和算力资源的需求也有了一个更高的要求，但是对比基础模型的发展，还是以深度学习为主的人工神经网络为主。人工神经网络的发展最早起源于20世纪40年代，当时心理学家WarrenMcCulloch和数学家WalterPitts提出了神经元模型。这个模型基于生物学中的神经元工作原理，为后续神经网络的发展奠定了基础。

深度神经网络的层数可以根据实际需求增加到成千上万层，而参数根据实际需要也可以被增加到几千亿上万亿。这些模拟人类神经元的模型在数量各结构上早已超过了人类的极限，人类的中枢神经的神经元个数才不过2000亿个，而人类大脑的神经元更是只有900亿到1000亿个，反观现在的大模型动辄就是千亿大模型，而在表现力方面于人类相比，却无法放在同一层面，比如OpenAI的GPT-3参数是1750亿，这个数量早已超过了人类大脑的神经元个数。而Snowflake的Arctic模型，它的参数更是达到了恐怖的4800亿，即使是这么大参数的模型，还是没有将人工智能带入到AGI时代，更何况对如此巨大参数的模型训练和维护也是一项不小的成本开支。

大模型在带来高效生产力的同时，也带来了更大的成本开支，在这一块各大厂和研究机构也早已察觉，现在各大机构不仅一方面在稳步发展大模型，另一方面也在极力的研究小模型，或者对大模型保证效果的前提下进行参数瘦身，具体方法包括了模型剪枝、量化、低秩分解、算子优化、模型设计等，但是目前这些操作都是基于原始的感知机基础之上的操作，无论是对Transformer模型的改造，降低其随Token增长的二次方计算复杂度，还是新的MOE专家混合模型，以及重新被拿起来研究的RNN模型，底层都是多层感知机。

感知机在其被设计出来之后，对深度学习领域的发展就像是计算机领域的电子管一样重要，但是我们细究感知机的连接方式就会发现，其实感知机的连接方式与生物神经元的连接方式并不一样，首先感知机内部神经元之间的连接在网络被设计完之后就固定了，也就是说，在实际使用过程中，感知机内部的连接是不会发生变化的，这也意味着感知机模型一旦被设计好，其能力就已经被限制了，而反观生物神经元之间的连接则是靠外界的刺激而发生的连接，比如我们不思考问题的时候，大脑内部仅有少量的神经元发生着连接，但是当我们思考问题的时候，大脑内部的神经元就会发生大量的连接。

其次，标准感知机内部神经元的连接仅是层与层之间发生着连接，而同一层内部的神经元之间并没有连接，这并不是说不能这样设计，而是为了基于矩阵计算的要求，方便大规模的计算，深度学习模型在训练和推理过程中，基于GPU等硬件规则，模型内部都是进行着大量的矩阵运算，而矩阵运算的特点就是要遵循行列规则，标准的前馈神经网络通过矩阵乘法来进行计算，这是因为各层间的连接形成了一个清晰的层级结构，每一层的输出可以表示为一个向量或矩阵，而层间的权重也可以表示为矩阵，这样整个计算过程就可以简化为一系列的矩阵运算。如果同层之间发生了连接，高效并行计算就成了问题，这会极大的增加模型的计算复杂度。

那么有没有一个改造方法直接对感知机动手呢？使其能够更接近于生物神经元的连接方式，使其内部结构能够根据外界需求自适应的发生连接。近期，来自哥本哈根信息技术大学的研究团队提出了一种在智能体生命周期内能够实现可塑性和结构变化的机制——LNDP（LifelongNeuralDevelopmentalprograms，终身神经发育计划）。该机制通过执行局部计算来实现，依赖于人工神经网络中每个神经元的局部活动和环境的全局奖励函数。

LNDP使得人工神经网络能够以活动和奖励依赖的方式实现突触和结构的可塑性，并桥接了间接发育编码（indirectdevelopmentalencoding）和元学习的可塑性规则，并提出了EvolvingSelf-AssemblingNeuralNetworks（进化自组装网络）。这意味着神经网络终于可以根据具体任务进行自主连接和生长发育了，而非以往固定的、静态的、完全连接的方式。

我们都知道，生物神经网络的特点是具有高度的可塑性，这是使自然生物具有显著适应性的核心特性。重要的是，这种能力同时影响了突触的强度和神经系统的拓扑结构。另一方面，人工神经网络主要被设计成静态的、完全连接的结构，在训练后保持冻结，无法适应任何意外的变化，在面对不断变化的环境和新的输入时可能是出了名的脆弱。而LNDP由一组参数化组件组成，旨在定义神经和突触动态，并使人工神经网络具有像生物神经网络一样的结构可塑性（即突触可以动态添加或移除）。

具体而言，研究团队提出了一个建立在图转换器结构上的网络实例，并提出了一种基于感受神经元自发活动的预体验可塑性机制。展示了该模型从随机连接或空网络开始的不同控制任务中学习经验的能力。研究人员进一步表明，结构可塑性在需要快速适应或具有非稳定奖励的环境中是非常有利的。

具体来说，研究团队采用了一种机制，使其能够代理整个生命周期中发生可塑性和结构变化。它通过执行局部计算来实现这一点，这些局部计算同时依赖于人工神经网络中每个神经元的局部活动和从环境中获得的全局奖励函数。因此，由此产生的系统定义了一个塑性神经网络家族，弥补了间接发育编码和元学习可塑性规则之间的差距，最终称之为终身神经发育程序（LNDP）。

LNDP是由一系列可能包含参数的组件所定义的，这些组件描述了神经元和突触的动力学特性。其设计受到了对架构先验研究以及结构可塑性在学习中的作用的启发，LNDPs还具备结构可塑性的特性（也就是说，模型中的连接即突触可以被动态地增加或减少）。

在此基础上，研究团队提出了一个基于GT（GraphTransformer）图变换层的LNDP实例，它通过突触以及额外的非突触渠道来模拟神经元之间的通信，这种设置允许神经元进行自我组织和分化。神经元和突触的动力学则通过门控循环单元（GRUs）来建模。所有这些组件一起构成了一个可学习的、广泛的LNDP家族，我们可以通过优化它们来解决各种不同的强化学习任务。简而言之，LNDPs是旨在模仿生物大脑复杂动力学和可塑性的计算模型，通过结合先进的神经网络技术如GraphTransformers和GRUs，它们能够处理复杂的机器学习挑战。

受探索自发活动（SpontaneousActivity，SA）在发展生物神经网络以及人工神经网络中作用的研究工作启发，研究团队进一步扩展了系统，加入了基于自发活动（SA）使预体验发展成为可能的机制。研究人员使用了一个简单的可学习的感官神经元随机过程来模拟自发活动（SA）。利用自发活动（SA）使得在预体验过程和经验依赖学习两个阶段都能重复使用相同的组件。

自发活动是指在没有外部刺激的情况下，神经网络内部自发产生的活动，这种活动在生物神经系统的发展和成熟中扮演着重要角色。研究者们从多个文献中获得了灵感，这些文献探讨了自发活动在生物及人工神经网络中的作用。基于这些理论，他们设计了一个机制，这个机制允许网络在没有任何具体经验之前就开始发育和组织，即“预体验发育”。这种机制是通过建模一个简单的、可学习的感官神经元随机过程来实现的，这意味着网络中的神经元可以自发产生活动，而这种活动又可以被学习和调整。

更进一步，自发活动的应用不仅限于预体验发育阶段，它还能在之后的经验依赖学习中发挥作用，即当网络开始接触真实世界的数据并从中学习时。这意味着，在预体验发育和实际学习过程中，网络可以重用相同的组件，这表明网络的某些部分在早期阶段通过自发活动“预热”，随后可以在后续的学习中发挥更有效的作用。因此，自发活动不仅是神经网络发育的一个关键因素，而且也是提高网络学习效率和灵活性的一种策略。

自发活动（SA）在神经网络发育中的作用，来设计和改进他们的系统。自发活动被认为在神经网络的发育和功能成熟中扮演重要角色。在实际经验（例如，从环境接收到的信息）到达之前，神经网络就能够开始形成和发展。他们通过一个简单的、可学习的感官神经元随机过程来模拟这种自发活动，这实际上是在模拟神经元自发产生活动的概率性行为，这种活动可以被学习和优化。

使用自发活动（SA）作为驱动预体验发展的机制，意味着在没有具体经验输入的情况下，网络也可以开始构建自己的内部结构和连接。更重要的是，这种机制允许在预体验发展和后续的经验依赖学习阶段重用相同的网络组件。这意味着网络可以在早期阶段通过自发活动“预热”和自我组织，然后在接触到实际经验后，这些已经形成的结构可以更快地适应和学习，提高整体的学习效率和适应性。这种设计思路体现了对生物神经网络发育原理的深刻理解和应用，同时也增强了人工神经网络的智能和自主性。

通过SA驱动的发展和经验依赖适应的经验前学习，LNDPs代表了一种很有前途的新型自组织神经网络的途径，可以缩小未来自然适应和人工适应之间的差距。综合来看，LNDP在人工神经网络自组织和适应性方面的有着显著的效果：

总之，LNDP模型结合结构可塑性和自发活动，不仅能够促使网络从无序到有序的自组织，还能增强其在复杂和多变环境下的适应能力和学习效率。

然后将这些描述过程生成一个LNDP的组件。这些组件可以是参数化的可学习函数。完整的参数集为θ。初始化过程中，将G0≡I、O、h0、e0、v0、w0>作为初始网络，它是从一个分布的Ψ=P（G0=g）中采样的。输入和输出神经元在代理的生命周期中保持固定。节点G→HN为节点函数，根据完整的图状态更新节点的状态，节点状态可以用来定义神经元参数，如偏差。

其定义为：

在神经网络模型中，每个节点（神经元）的状态更新是一个关键过程，它决定了网络的整体行为和学习能力。通过使用完整的图状态来更新节点，即考虑到整个网络结构的信息，模型能够捕捉到节点之间的复杂相互作用，这类似于生物神经网络中神经元之间的信息传递。

图神经网络（GraphNeuralNetworks，GNNs）是一种特别设计来处理图结构数据的神经网络架构，它能够处理节点之间的复杂关系，通过消息传递机制，允许信息在网络中传播和聚合。在节点更新过程中，可以融合来自相邻节点的信息，这使得模型能够学习到更深层次的结构特征和节点间的关系。

在节点更新中考虑到活动状态（vt）是至关重要的，因为这使得模型能够实现活动依赖的机制，即神经元的行为和可塑性可以依赖于其当前的活动水平。在生物学中，神经元的活动状态（如放电频率）会影响其可塑性，即神经元之间连接的强度和稳定性。在神经网络模型中，类似地，节点的状态可以影响其与其他节点的连接权重，进而影响整个网络的动态特性。

将节点的状态比作神经元的分子或膜状态，形象地说明了模型的这一方面。就像真实的神经元一样，模型中的节点状态可以反映其内部的“化学”状态，这些状态的变化能够影响到神经元的可塑性和动力学，从而影响到网络的学习和适应能力。通过这种方式，模型能够更好地模拟生物神经网络的复杂行为，包括学习、记忆和适应环境变化的能力。

边的状态通过一个函数fθ：H×H×R→E来更新，该功能基于连接节点的状态和从环境接收到的奖励信号rt来更新它们的状态。

我们将这个函数称为边或突触模型：

如Hebbian学习：

增加边的（突触）概率：

类似地，f-θ：E→[0,1]是剪枝函数，它将去除图中删除一条边的概率（即将其在邻接矩阵中的条目设置为0）定义为其状态的函数。

删除边的（突触）概率：

然后我们通过一个动态模型，根据过去的激活情况、当前的权重矩阵wt、节点的状态ht和观察值ot来定义网络动力学。

网络动力学：

LNDP组件由三部分构成，分别是节点模型（Nodemodel）、边模型（Edgemodel）、网络拓扑结构（Networktopology）。

节点模型：节点模型节点特征ht、激活vt以及附加的图结构特征通过一个图转换层GT（GraphTransformer）输入，其输出作为输入输入到GRU，以获得新的节点状态ht+1。

边缘模型：边缘模型的边缘也用GRU建模，并将突触前和突触后节点的状态和最后收到的奖励作为输入。

网络拓扑结构：网络拓扑网络被分为输入（蓝色）、隐藏（黑色）和输出（红色）神经元。连接只能存在于从输入到隐藏、从隐藏到隐藏、从隐藏到输出之间。有些节点可能根本没有连接，而且隐藏节点的总数是不变的。超参数μconn和σconn定义了初始网络密度的分布（截断的正态分布）。

在实验阶段，研究团队使用了三种经典的控制任务（Cartpole,AcrobotandPendulum）和一种非平稳动力学的觅食任务，这些任务的设计涵盖了不同的控制难度和环境动态性，以全面评估模型的适应性和学习能力。对于所有的任务，一个代理的适应度被定义为该代理在三个不同的试验（即不同的随机种子）中的平均回报。

双摆（Acrobot）：这是一个双连杆摆的控制问题，需要通过控制关节的角度使末端连杆达到特定的高度或者维持在某个角度。是一个离散控制任务，其中代理的目标是通过向关节施加扭矩，使初始状态下垂挂的双摆升至某一高度以上。该环境拥有一个六维输入空间和一个三维离散输出空间。常被用作测试和验证强化学习算法的基准。在该任务中，代理面对的是一个双连杆摆系统，其初始状态为向下垂挂，目标是通过控制连杆间的关节扭矩，使整个系统能够摇摆起来，直至连杆的末端超过设定的高度线。这要求代理不仅需要掌握正确的控制策略，还需要对物理系统的动态特性有深入的理解。

摆锤（Pendulum）：这是一个连续控制任务，代理的目标是从向下垂挂的起始状态，将摆锤平衡在竖直位置。观测空间为三维，而输出则为单一连续值。单摆问题，通常涉及将摆从一个不稳定状态（如倾斜状态）恢复到稳定状态（如垂直向上）。摆锤控制任务是强化学习和控制理论中常见的基准问题，它模拟了一个单摆的物理情景，其中摆锤从向下垂挂的状态开始，代理的任务是通过施加连续的力矩，使摆锤稳定在竖直向上的平衡位置。

觅食（Foraging:）：在一个由五个单元格构成的简单一维网格中进行，代理拥有一个三维离散动作空间，对应着向右移动、向左移动和静止不动。代理从中间单元格开始，只能感知其当前所在的具体位置。食物源会被随机放置在网格的一端。当代理到达食物处时，它将获得10分的奖励，随后其位置会被重置。若代理在10步内未能找到食物，环境也将被重置。每当环境重置时，食物位置有概率pswitch（除非另有说明，否则设为0.5）发生改变，这使得环境呈现出非稳态特性。这个任务涉及到在一个不断变化的环境中寻找资源，要求代理能够适应环境的变化，这比静态环境中的任务更具挑战性，因为它要求代理具备终生学习和适应新情况的能力。

为了评估代理在这些任务上的表现，研究者定义了一个评价标准，即代理的适应度（fitness）。适应度是通过计算代理在三次不同试验中的平均回报来确定的，这里的“不同试验”指的是使用不同的随机种子进行实验，以确保结果的多样性和可靠性。这种方法可以减少由于随机性引起的偏差，确保评估结果更准确地反映代理的真实性能。

对于所有条件，结构可塑性的LNDP在Cartpole和觅食任务中的表现优于无结构可塑性的LNDP。没有结构可塑性的模型不在空网络（μ_conn=0）上进行评估，因为显然它们会失败（网络将保持为空）。下图展示了具有不同初始化分布（其中μ_conn是平均连接概率，σ_conn是其方差）和结构可塑性（SP）启用（红色）与禁用（蓝色）的LNDP的训练曲线。

这里提到的初始化分布指的是网络在开始训练时的连接概率分布。μ_conn和σ_conn分别表示连接概率的平均值和方差，这反映了网络初始连接的密集程度和随机性。结构可塑性（structuralplasticity，SP）是指网络结构（如连接方式和拓扑）可以根据学习和环境反馈进行动态调整的能力。在图表中，红色曲线代表启用了结构可塑性的LNDP，而蓝色曲线则代表禁用了结构可塑性的LNDP。

研究结果显示，在Cartpole和觅食任务中，具有结构可塑性的LNDP在所有条件下都表现出优于没有结构可塑性的LNDP。这意味着结构可塑性有助于网络更好地适应环境，提高学习效率和任务表现。对于那些没有结构可塑性（PS）的模型，研究者并没有在完全空的网络（μ_conn=0）上进行评估，因为在这种情况下，网络不会有任何连接，因此无法进行任何有意义的学习或任务执行，必然会失败。

在具有非平稳奖励的觅食环境中，研究人员发现SP模型始终比非SP模型达到更高的平均种群适应度，而两者都达到了相似的最大适应度。需要注意的是，观察平均适合度更有用，因为最大的适合度很容易偶然达到。这些结果表明，SP在非平稳设置下促进了更好的适应性。大多数找到的解决方案都出现在奖励最后获得的一边，如果没有找到，则回到另一边，当转换概率低于或等于50%时，这是一个最优策略。有趣的是，这些变化可以通过权重变化或结构变化来实现，即在隐藏节点和对应于新的最佳选项的输出节点之间创建兴奋性连接。

研究人员在Acrobot实验中没有发现显著差异，没有SP的模型比有SP的模型达到更高的平均适应度。Pendulum环境作为唯一的连续控制问题，其复杂性和挑战性远超其他任务。连续控制意味着模型必须处理连续的动作空间，这比离散控制任务更加复杂，要求模型能够精细地控制输出，以适应动态环境。在Pendulum环境中，只有结构可塑性模型，且是从完全空的网络开始，即网络中没有任何连接（μ_conn=0），并且初始化连接概率的方差相对较小（σ_conn=0.1）时，才找到了解决方案。

这表明，在面对极其复杂和动态的环境时，结构可塑性（SP）对于网络的适应性和学习能力至关重要，它能够帮助模型在空白状态下快速构建有效的网络结构，以应对任务需求。同时，较低的初始化方差可能有助于网络在早期阶段更稳定地构建连接，避免过多的随机性干扰学习过程。

在CartPole环境中，没有自发活动（SA）的模型面临的主要挑战是在第一轮中快速适应，以防止杆立即倾倒，这需要极高的适应速度。具备SA的模型则能够在第一轮中展示出解决任务的先天技能，这归功于它们能够以自我组织的方式，独立于外部奖励达到功能性网络的状态，即SA使得模型能够在没有具体目标或奖励的情况下，通过自我组织发展出解决任务所需的基本能力。

有趣的是，没有经历SA阶段的LNDPs在第二轮后往往停止进步，而经过SA训练的模型则在各轮之间表现出了更强的差异性，这可能表明终生学习与SA驱动的发展之间存在协同效应，即两者结合能够产生比单独使用任何一种策略更强大的适应性和学习能力。

在与NDP的对比中，LNDP在觅食和CartPole任务中表现出了明显的优势。特别是在觅食环境中，NDP无法适应环境变化，因为它的适应性受限于固定的网络状态，而LNDP则能够通过调整其状态来适应环境，这再次证明了SA和终生学习能力对于提高模型适应性和表现的重要性。

下图展示了在CartPole环境中，LNDPs（终生学习神经发育程序）的各表现：

通过将LNDP和NDP在Foraging和Cartpole环境中的性能对比，最终发现NDP是通过在生命周期内（即在SA阶段之后）消融网络更新而获得的。这两种模型都经过了100个SA步骤。虽然这两种方法在Cartpole领域的性能更相似，但觅食任务需要一个代理在其生命周期内进行适应，而只有LNDP能够做到这一点。

研究团队在实验过程中，观察到网络发展和性能的动态变化中存在显著的变异性，这意味着不同的运行和实验条件下，网络的运作机制和表现可能会有很大的不同。然而，即使在这样的变异性中，也有一些共同的特征和趋势显现出来。

总的来说，通过sa驱动的发展和经验依赖适应的经验前学习，LNDPs代表了一种很有前途的新型自组织神经网络的途径，可以缩小未来自然适应和人工适应之间的差距。通过整合自发活动（SA）驱动的预体验学习与依赖于实际经验的适应性学习，LNDPs能够促进人工神经网络的自组织能力和适应性，使其更接近自然界中生物体的适应性水平。

LNDPs能够实现从宏观结构到微观动态的自我组织，既能在无具体任务时通过自发活动进行预学习，又能在面对具体任务时通过经验学习进行适应性调整。这种双重学习能力使得LNDPs在模仿自然界的适应性机制方面迈出了重要一步，有望在未来的人工智能发展中发挥重要作用，推动人工神经网络向更高级的智能形态演进。

欲获取关于本文内容——NDP及LNDP（LifelongNeuralDevelopmentalprograms，终身神经发育计划）的系列原论文和项目代码，请到对话页面回复关键词：LNDP

THE END

神经网络新范式——LNDP：可终身学习的自主发育程序世纪拓扑神经元自组织大模型人工神经网络

神经网络新范式——LNDP：可终身学习的自主发育程序世纪拓扑神经元自组织大模型人工神经网络

吴恩达深度学习笔记4.1~4.8深层神经网络DarAlpha

卷积神经网络系列 4 构建深度视觉模型：高级CNN结构解析文/Renda在当今技术领域，深层卷积神经网络（Deep Convolutional Neural Networks，简...

吴恩达深度学习课程中文字幕版上线网易云课堂

中国科学院半导体研究所

人工智能机器学习神经网络和深度学习的发展历程（下）模型学习算法神经网络发展

基于多尺度注意力CNN的SAR遥感目标识别^*

重磅完备的AI学习路线，最详细的资源整理！

神经网络的DBN与GAN及RNN等形象的详细资料讲解