自由能原理被认为是“自达尔文自然选择理论后最包罗万象的思想”,它试图从物理、生物和心智的角度提供智能体感知和行动的统一性规律,从第一性原理出发解释智能体更新认知、探索和改变世界的机制,从而对人工智能,特别是强化学习世界模型、通用人工智能研究具有重要启发意义。
读书会背景
生物体和智能体如何感知和适应世界以维持生存,是心理学、神经科学和人工智能等多个领域的核心问题。关于生物体的适应性、神经过程和认知机制,存在两种不同的观点:
1.特异性观点:认为不同生物的适应性、神经过程(如突触交换、大脑网络)和认知机制(如感知、注意力、社会互动)是独特的,需要特定的解释。这导致了哲学、心理学、神经科学、行为学、生物学、人工智能和机器人学等领域理论的发展,但难以实现这些理论的统一。
2.统一性原理观点:提出生物体的行为、认知和适应可能基于一些基本原则,可从第一性原理统一解释。这一观点的支持者寻找能够统一解释众多看似不同的生物和认知现象的原理。
自由能原理(FreeEnergyPrinciple)就是从统一性原理观点出发的这样一种尝试,它试图从物理、生物和心智的角度提供智能体感知和行动的统一性规律。类似于物理学中的哈密顿最小作用量原理,自由能原理认为任何自组织系统都必须最小化其自由能。它将感知和行动视为最小化自由能的互补方面:感知通过贝叶斯估计更新智能体的信念来最小化变分自由能,而行动则通过最小化期望自由能来改变世界,以使观测与智能体的期望相符。基于自由能原理的感知行动理论也被称为主动推理(ActiveInference)。
读书会框架
与复杂系统的关系
自由能原理提供了一个统一的理论框架,用于理解和模拟复杂系统的自组织、自适应行为,特别是在生物系统和大脑功能方面。它基于统计物理和热力学,认为系统通过最小化内部状态与环境状态之间的自由能差异来维持稳定。这一原理不仅解释了感知、行为和学习的统一过程,还对复杂系统建模、认知过程和意识的理解,以及生物和人工智能系统的设计原则产生了深远影响,跨越了生物学、神经科学、心理学和人工智能等多个领域,为揭示这些系统背后的统一原理提供了有力的工具。
读书会发起人
牟牧云,北京师范大学系统科学学院博士生,张江老师因果涌现研究小组成员。研究方向:复杂系统建模与调控、强化学习世界模型。
何真,南京航空航天大学副教授。研究方向:不确定复杂非线性系统的多尺度反馈控制。
张德祥,骥智智能科技算法工程师,公众号CreateAMind主编。研究方向:自由能原理,主动推理,AGI。
本季读书会运营负责人梁金,统计物理硕士,集智俱乐部副主编。兴趣领域:物理,因果涌现,科普写作。
读书会讲者招募
报名参与读书会
本读书会适合参与的对象本读书会谢绝参与的对象
为确保专业性和讨论的聚焦,本读书会谢绝脱离读书会文本和复杂科学问题本身的空泛的哲学和思辨式讨论;不提倡过度引申在社会、人文、管理、政治、经济等应用层面的讨论。我们将对参与人员进行筛选,如果出现讨论内容不符合要求、经提醒无效者,会被移除群聊并对未参与部分退费,解释权归集智俱乐部所有。
运行模式
报名方式
第一步:扫码填写报名信息
扫码报名读书会
第二步:填写信息后,付费299元。
针对学生的退费机制
读书会通过共学共研的机制,围绕前沿主题进行内容梳理和沉淀,所以针对于学生,可以通过参与共创任务,获取积分,积分达到退费标准之后,可以直接退费。
加入社区后可以获得的资源参与共创任务,共建学术社区
PS:具体参与方式可以加入读书会后查看对应的共创任务列表,领取任务,与运营负责人沟通详情,上述规则的最终解释权归集智俱乐部所有。
阅读材料
读书会阅读材料较多,为了更好地阅读体验,可扫描下方二维码进入集智斑图页面,阅读并收藏感兴趣的论文。
1.自由能原理
自由能原理及主动推理的主要目标是寻求解决如下问题:当生物体与它们的环境进行适应性交换时,它们是如何生存的?活的生物体不断与它们的环境(包括其他生物体)进行相互作用。它们发出改变环境的动作,并接受来自环境的感官观察,它们只能通过对行动-感知反馈回路施加适应性控制来维持它们的身体完整性。这意味着采取行动获得与预期结果或目标相对应的感官观察,或调整认知对世界形成更好的理解。
传统观点认为,不同的生物适应、神经过程(如突触交换和大脑网络)和认知机制(如感知、注意力、社会互动)是高度特异的,需要专门的解释。这导致哲学、心理学、神经科学、动物行为学、生物学、人工智能和机器人学等领域的理论激增,几乎没有统一的希望。另一种观点则认为,尽管有不同的表现形式,但活的生物体的行为、认知和适应的核心方面都可以从第一原理得到一致的解释。自由能主动推理就是从第一原理推导的理解大脑和思维的规范方法。
此次读书会第一部分,我们将首先对KarlFriston等人撰写的书籍《主动推理:心智、脑和行为的自由能原理》做概览介绍,之后结合其他前沿理论成果对自由能原理做详细介绍和推导,并探讨自由能原理可以为人工智能领域带来哪些启发。
自由能原理概念图:感知和行动让模型和世界之间的差异最小化
1.1自由能原理概览介绍
《主动推理:心智、脑和行为的自由能原理》,自由能原理入门的首选读物
《主动推理》书中第一章所描述的“主动推理的两条道路”
1.2自由能原理详细介绍
自由能原理经典奠基性综述
主动推理框架可以被描述为部分可观测马尔可夫决策过程(POMDP),这种表述成为建模神经认知过程的有用方法。本文提供了一个详细教程,介绍了基本概念、数学和编程实现,演示如何使用模型进行行为和神经建模,并将实验模型拟合到行为数据中。
生成过程(真实世界中发生的事实)与生成模型(智能体脑中关于世界的信念)
理论生物学的进展表明,基础认知和感知行为分别是体外细胞培养和神经元网络的涌现特性。这种神经网络在没有奖励或强化的情况下自发学习结构化行为。本文通过自由能量原理视角对这种自组织的有目的行为进行了刻画。
这篇论文提供了自由能原理的简洁推导。自由能量原理是关于自组织和感知行为的规范性描述,它将自组织描述为最大化贝叶斯模型证据,将感知行为描述为最优贝叶斯设计和决策。本文从世界的随机动力系统的朗之万方程描述开始,最终得出可以被看作是有感知的物理学的贝叶斯力学。
贝叶斯力学与主动推理
对自由能原理公式的含义进行了细致深入的讲解
集智百科:
1.3自由能原理的工程实现
使用贝叶斯模型约简方法来进行动态因果建模,以推断功能性大脑结构和潜在有效连接的非线性状态空间模型。
建立自由能原理与深度学习世界模型的联系
2.自由能原理视角下的强化学习
2.1强化学习世界模型
强化学习算法可以分为无模型(model-free)强化学习与有模型(model-based)强化学习,后者中的模型也被称为世界模型。在基于世界模型的强化学习方法中,智能体首先学习一个关于环境的内嵌的模型,在内嵌的模型中学习行为决策,从而提高在真实环境中的表现。强化学习世界模型的优点是减少对真实环境的采样需求,提高数据利用率,增强泛化能力和适应性;挑战则是如何构建准确和可靠的环境模拟,如何平衡模拟和真实的探索,如何处理模型偏差和不确定性等。
基于模型的强化学习综述,涉及状态抽象、动作分层
基于模型的强化学习方法,学习隐空间的世界模型,提高了数据利用率与计算效率,同时取得了很好的控制效果。
Dreamer后续改进,将隐空间的连续高斯分布改进为离散的类别分布。
弱推荐,Dreamer的后续改进,通过一些工程化技术使得该模型能够通过一套固定的超参数应用到各种不同的游戏任务中并在“我的世界”游戏钻石收集任务中取得了SOTA的效果。
学习时空多尺度的生成模型。
2.2强化学习探索
在强化学习中,智能体需要在探索和利用之间找到平衡(explorationandexploitation),即在利用已知的最优策略获得最大即时奖励的同时,也要探索未知的状态和动作,以期望获得更大的长期奖励。强化学习探索的方法大致可以分为基于状态不确定性的探索和基于智能体内在动机的探索。在基于模型的强化学习中,智能体进行有效探索可以提高模型学习准确性,更好地理解和适应环境,从而在各种任务中取得更好的性能。
如何高效地探索环境并收集信息,从而帮助策略学习?这篇论文提供了关于单智能体和多智能体强化学习探索方法的全面综述。
在隐空间中将系综模型的差异作为强化学习内在奖励指导世界模型的学习,与自由能原理中期望自由能中的信息增益相似。
2.3分层强化学习
分层强化学习的优点是可以减少探索空间,提高样本利用率,增强泛化能力和适应性,缓解维度灾难和信用分配问题。挑战是如何设计合适的层级结构,平衡探索和利用,处理层级间的协调和冲突,评估分层强化学习的性能等。分层强化学习已经在许多领域和应用中取得了成果,包括机器人控制、自然语言处理、视频游戏、推荐系统等。
分层强化学习综述:
技能学习、模块化学习:
3.脑与意识:预测加工理论
物质如何产生感知、思维、梦境和创造力?我们的大脑如何理解思想、理论和概念?所有这些非物质的精神状态,包括意识本身到底根植于何处?这本书从预测加工理论出发,认为高级生物已经演化成为善于预测传入感知刺激流的复杂装置,这些预测会引发行动,构建我们的世界,并改变我们需要参与和预测之物。
HawkinsJ.Athousandbrains:Anewtheoryofintelligence[M].BasicBooks,2021.
通俗易懂的科普读物,该书中提出的“千脑智能”理论与主动推理、预测加工等理论类似,认为大脑通过运动进行学习,但该理论认为大脑不只学习一种世界模型,而是学习若干互补模型。此外,大脑利用参考系存储知识,以跟踪我们的感官相对于世界上食物的位置。