自由能原理与强化学习读书会启动:探索感知和行动的统一原理翻译贝叶斯自组织

自由能原理被认为是“自达尔文自然选择理论后最包罗万象的思想”,它试图从物理、生物和心智的角度提供智能体感知和行动的统一性规律,从第一性原理出发解释智能体更新认知、探索和改变世界的机制,从而对人工智能,特别是强化学习世界模型、通用人工智能研究具有重要启发意义。

读书会背景

生物体和智能体如何感知和适应世界以维持生存,是心理学、神经科学和人工智能等多个领域的核心问题。关于生物体的适应性、神经过程和认知机制,存在两种不同的观点:

1.特异性观点:认为不同生物的适应性、神经过程(如突触交换、大脑网络)和认知机制(如感知、注意力、社会互动)是独特的,需要特定的解释。这导致了哲学、心理学、神经科学、行为学、生物学、人工智能和机器人学等领域理论的发展,但难以实现这些理论的统一。

2.统一性原理观点:提出生物体的行为、认知和适应可能基于一些基本原则,可从第一性原理统一解释。这一观点的支持者寻找能够统一解释众多看似不同的生物和认知现象的原理。

自由能原理(FreeEnergyPrinciple)就是从统一性原理观点出发的这样一种尝试,它试图从物理、生物和心智的角度提供智能体感知和行动的统一性规律。类似于物理学中的哈密顿最小作用量原理,自由能原理认为任何自组织系统都必须最小化其自由能。它将感知和行动视为最小化自由能的互补方面:感知通过贝叶斯估计更新智能体的信念来最小化变分自由能,而行动则通过最小化期望自由能来改变世界,以使观测与智能体的期望相符。基于自由能原理的感知行动理论也被称为主动推理(ActiveInference)。

读书会框架

与复杂系统的关系

自由能原理提供了一个统一的理论框架,用于理解和模拟复杂系统的自组织、自适应行为,特别是在生物系统和大脑功能方面。它基于统计物理和热力学,认为系统通过最小化内部状态与环境状态之间的自由能差异来维持稳定。这一原理不仅解释了感知、行为和学习的统一过程,还对复杂系统建模、认知过程和意识的理解,以及生物和人工智能系统的设计原则产生了深远影响,跨越了生物学、神经科学、心理学和人工智能等多个领域,为揭示这些系统背后的统一原理提供了有力的工具。

读书会发起人

牟牧云,北京师范大学系统科学学院博士生,张江老师因果涌现研究小组成员。研究方向:复杂系统建模与调控、强化学习世界模型。

何真,南京航空航天大学副教授。研究方向:不确定复杂非线性系统的多尺度反馈控制。

张德祥,骥智智能科技算法工程师,公众号CreateAMind主编。研究方向:自由能原理,主动推理,AGI。

本季读书会运营负责人梁金,统计物理硕士,集智俱乐部副主编。兴趣领域:物理,因果涌现,科普写作。

读书会讲者招募

报名参与读书会

本读书会适合参与的对象本读书会谢绝参与的对象

为确保专业性和讨论的聚焦,本读书会谢绝脱离读书会文本和复杂科学问题本身的空泛的哲学和思辨式讨论;不提倡过度引申在社会、人文、管理、政治、经济等应用层面的讨论。我们将对参与人员进行筛选,如果出现讨论内容不符合要求、经提醒无效者,会被移除群聊并对未参与部分退费,解释权归集智俱乐部所有。

运行模式

报名方式

第一步:扫码填写报名信息

扫码报名读书会

第二步:填写信息后,付费299元。

针对学生的退费机制

读书会通过共学共研的机制,围绕前沿主题进行内容梳理和沉淀,所以针对于学生,可以通过参与共创任务,获取积分,积分达到退费标准之后,可以直接退费。

加入社区后可以获得的资源参与共创任务,共建学术社区

PS:具体参与方式可以加入读书会后查看对应的共创任务列表,领取任务,与运营负责人沟通详情,上述规则的最终解释权归集智俱乐部所有。

阅读材料

读书会阅读材料较多,为了更好地阅读体验,可扫描下方二维码进入集智斑图页面,阅读并收藏感兴趣的论文。

1.自由能原理

自由能原理及主动推理的主要目标是寻求解决如下问题:当生物体与它们的环境进行适应性交换时,它们是如何生存的?活的生物体不断与它们的环境(包括其他生物体)进行相互作用。它们发出改变环境的动作,并接受来自环境的感官观察,它们只能通过对行动-感知反馈回路施加适应性控制来维持它们的身体完整性。这意味着采取行动获得与预期结果或目标相对应的感官观察,或调整认知对世界形成更好的理解。

传统观点认为,不同的生物适应、神经过程(如突触交换和大脑网络)和认知机制(如感知、注意力、社会互动)是高度特异的,需要专门的解释。这导致哲学、心理学、神经科学、动物行为学、生物学、人工智能和机器人学等领域的理论激增,几乎没有统一的希望。另一种观点则认为,尽管有不同的表现形式,但活的生物体的行为、认知和适应的核心方面都可以从第一原理得到一致的解释。自由能主动推理就是从第一原理推导的理解大脑和思维的规范方法。

此次读书会第一部分,我们将首先对KarlFriston等人撰写的书籍《主动推理:心智、脑和行为的自由能原理》做概览介绍,之后结合其他前沿理论成果对自由能原理做详细介绍和推导,并探讨自由能原理可以为人工智能领域带来哪些启发。

自由能原理概念图:感知和行动让模型和世界之间的差异最小化

1.1自由能原理概览介绍

《主动推理:心智、脑和行为的自由能原理》,自由能原理入门的首选读物

《主动推理》书中第一章所描述的“主动推理的两条道路”

1.2自由能原理详细介绍

自由能原理经典奠基性综述

主动推理框架可以被描述为部分可观测马尔可夫决策过程(POMDP),这种表述成为建模神经认知过程的有用方法。本文提供了一个详细教程,介绍了基本概念、数学和编程实现,演示如何使用模型进行行为和神经建模,并将实验模型拟合到行为数据中。

生成过程(真实世界中发生的事实)与生成模型(智能体脑中关于世界的信念)

理论生物学的进展表明,基础认知和感知行为分别是体外细胞培养和神经元网络的涌现特性。这种神经网络在没有奖励或强化的情况下自发学习结构化行为。本文通过自由能量原理视角对这种自组织的有目的行为进行了刻画。

这篇论文提供了自由能原理的简洁推导。自由能量原理是关于自组织和感知行为的规范性描述,它将自组织描述为最大化贝叶斯模型证据,将感知行为描述为最优贝叶斯设计和决策。本文从世界的随机动力系统的朗之万方程描述开始,最终得出可以被看作是有感知的物理学的贝叶斯力学。

贝叶斯力学与主动推理

对自由能原理公式的含义进行了细致深入的讲解

集智百科:

1.3自由能原理的工程实现

使用贝叶斯模型约简方法来进行动态因果建模,以推断功能性大脑结构和潜在有效连接的非线性状态空间模型。

建立自由能原理与深度学习世界模型的联系

2.自由能原理视角下的强化学习

2.1强化学习世界模型

强化学习算法可以分为无模型(model-free)强化学习与有模型(model-based)强化学习,后者中的模型也被称为世界模型。在基于世界模型的强化学习方法中,智能体首先学习一个关于环境的内嵌的模型,在内嵌的模型中学习行为决策,从而提高在真实环境中的表现。强化学习世界模型的优点是减少对真实环境的采样需求,提高数据利用率,增强泛化能力和适应性;挑战则是如何构建准确和可靠的环境模拟,如何平衡模拟和真实的探索,如何处理模型偏差和不确定性等。

基于模型的强化学习综述,涉及状态抽象、动作分层

基于模型的强化学习方法,学习隐空间的世界模型,提高了数据利用率与计算效率,同时取得了很好的控制效果。

Dreamer后续改进,将隐空间的连续高斯分布改进为离散的类别分布。

弱推荐,Dreamer的后续改进,通过一些工程化技术使得该模型能够通过一套固定的超参数应用到各种不同的游戏任务中并在“我的世界”游戏钻石收集任务中取得了SOTA的效果。

学习时空多尺度的生成模型。

2.2强化学习探索

在强化学习中,智能体需要在探索和利用之间找到平衡(explorationandexploitation),即在利用已知的最优策略获得最大即时奖励的同时,也要探索未知的状态和动作,以期望获得更大的长期奖励。强化学习探索的方法大致可以分为基于状态不确定性的探索和基于智能体内在动机的探索。在基于模型的强化学习中,智能体进行有效探索可以提高模型学习准确性,更好地理解和适应环境,从而在各种任务中取得更好的性能。

如何高效地探索环境并收集信息,从而帮助策略学习?这篇论文提供了关于单智能体和多智能体强化学习探索方法的全面综述。

在隐空间中将系综模型的差异作为强化学习内在奖励指导世界模型的学习,与自由能原理中期望自由能中的信息增益相似。

2.3分层强化学习

分层强化学习的优点是可以减少探索空间,提高样本利用率,增强泛化能力和适应性,缓解维度灾难和信用分配问题。挑战是如何设计合适的层级结构,平衡探索和利用,处理层级间的协调和冲突,评估分层强化学习的性能等。分层强化学习已经在许多领域和应用中取得了成果,包括机器人控制、自然语言处理、视频游戏、推荐系统等。

分层强化学习综述:

技能学习、模块化学习:

3.脑与意识:预测加工理论

物质如何产生感知、思维、梦境和创造力?我们的大脑如何理解思想、理论和概念?所有这些非物质的精神状态,包括意识本身到底根植于何处?这本书从预测加工理论出发,认为高级生物已经演化成为善于预测传入感知刺激流的复杂装置,这些预测会引发行动,构建我们的世界,并改变我们需要参与和预测之物。

HawkinsJ.Athousandbrains:Anewtheoryofintelligence[M].BasicBooks,2021.

通俗易懂的科普读物,该书中提出的“千脑智能”理论与主动推理、预测加工等理论类似,认为大脑通过运动进行学习,但该理论认为大脑不只学习一种世界模型,而是学习若干互补模型。此外,大脑利用参考系存储知识,以跟踪我们的感官相对于世界上食物的位置。

THE END
1.基于web在线学习系统(源码+开题)基于网页的在线学习系统设计基于Web的在线学习系统应运而生,它们不仅打破了地域和时间的限制,还为学生提供了丰富多样的学习资源和个性化的学习路径。在此背景下,研究和开发一个功能全面、用户友好的在线学习系统显得尤为重要。该系统应能够满足不同用户的需求,提供便捷的资料分类和视频分类功能,以及丰富的学习资料库和视频资料库。https://blog.csdn.net/2301_81685385/article/details/136457460
2.在线学习系统的设计与实现20240313211203.docx基于Internet的在线学习系统逐渐成为主流的教学模式。目前,传统教学已难以适应现代教育的需要。越来越多的学生开始利用网络环境平台来满足教育发展的需要。在过去的几十年里,世界各国在科技发展的大潮中表现出了非凡的实力。我国有关部门也逐年加大对教育的投入,逐步缩小发达国家与发达国家的差距,网络教育因克服了距离、https://max.book118.com/html/2024/0313/6212144101010101.shtm
3.学生在线学习系统随着科技的不断发展,传统的教育方式逐渐不能满足学生的学习需求。学生在线学习系统的出现,为学生提供了一个便捷、高效的学习平台。 学生在线学习系统是一种基于互联网的学习方式,通过学生在电脑、手机等终端设备上登录系统,可以随时随地获取学习资源,完成作业、测试和测评等任务。 http://www.360doc.com/content/23/1109/01/1103289673_1103289673.shtml
4.在线学习系统的设计与实现计算机毕业设计源码+LW文档本课题主要探索在学习中的一种新方式,实现网络技术,多媒体技术与课程资源相结合的新模式,在网络中信息丰富而且开放,传统学习方式的文档形式,已经不能再满足学习者了,从而产生了学习系统,在线学习平台充分发挥信息的交互性、共享性、、无限制、大容量等优点,使得不在同一时间、同一地域、同一院校的学者之间沟通交流,https://blog.51cto.com/u_15745565/7412241
5.浅谈在线学习系统兴起的时间背景机遇与挑战!随着互联网的迅猛发展,网络技术的成熟以及移动设备的普及,在线学习系统逐渐兴起,并成为人们学习的新趋势。本文将探讨在线学习系统兴起的时间背景、机遇与挑战。 一、时间背景 在线学习系统兴起的时间背景可以追溯到20世纪90年代末期。当时,互联网技术的发展已经让人们开始意识到在线学习的潜力,同时也有一些大型企业开始使用https://www.lmschina.net/news/6647/
6.在线教育背景下学生学习方式研究再次,文章列举并分析了当前在线教育背景下典型的在线学习方式;分析了学校内学生在线学习的现状以及借助专业调查数据呈现了学习者借助互联网学习的现状,如学习者借助互联网学习的时间、频次、地点,学习者倾向于使用的在线教育平台,关注的学习内容,学习者的学习体验以及家长对学习者进行互联网学习的态度等。在此基础上,分析https://wap.cnki.net/lunwen-1018212043.html
7.“在线与在校——面向未来的混合式教学与教研”云端研讨浙江师范大学附属中学历史特级教师、正高级教师陈亚利老师以“打造心中有‘人’的课堂”为题,从一线教师的角度对疫情期间在线教学阶段的探索以及复学之后如何实施在线与在校混合式教与学做了分享。她强调要为了学生,为了学生的学习,打造心中有“人”的课堂,尊重每一位学生的思想与表达,让课堂成为思维的乐园,成为促进学生https://www.hdjx.org.cn/plus/view.php?aid=9279
8.线上教学平台运行总结(通用15篇)各位老师依靠在线平台,采用多种形式的考勤手段,如腾讯课堂的签到考勤记录、腾讯会议的视频考勤、学习通的在线查看等方式核实督促学生在线学习,一方面保证学生能够在疫情背景下正常学习,另一方面督促学生养成良好的学习习惯,不因不在课堂就懒散无序。 (四)网络保障 https://m.oh100.com/kaoshi/jiaoxuezongjie/646722.html
9.物理实验论文(通用15篇)大学物理实验课是理工科学生进入大学实践教学环节的第一门课,是进行科学实验基本训练的必修基础课程,是学生接受系统化实验方法和实训技能的开端。物理实验是科学实验的先驱,体现了大多数科学实验的共性。在实验思想、方法、内容、手段等方面为专业实验课打好坚实的基础。在“高校转型”的大背景下,如何根据本校实际情况进https://www.unjs.com/lunwen/wuli/20240516094034_8205019.html
10.A3000(Achieve3000)在线英语阅读怎么样?贝叔育儿Achieve 3000(简称A3000)是一个基于蓝思Lexile分级体系的在线英语阅读和写作智能学习系统。Achive 3000在美国是个家喻户晓的差异化教学网站,该网站系统专为2-12年级的学生设计,旨在通过非虚构类作品的阅读和写作来提高他们的英语阅读和写作能力。 一、A3000的背景与荣誉: https://www.beisr.com/a3000.html
11.河南工业大学:“AI+”智慧教学一体化创新管理与应用实践课堂生态体系的软硬件环境建设、体制机制的构建与创新、教师能力的培训与提升以及软硬件系统的应用与推广,是一项涉及多部门合作、长期且富有创造性的工程,其责任重大且道路漫长。 (三)充分利用新技术,创作自主学习高效教育教学模式 利用先进技术手段,实现多种终端设备的接入,以满足教师授课和学生学习的多样化需求;同时,结https://jyt.henan.gov.cn/2024/09-24/3066481.html
12.在线学习力:结构特征及影响因素研究表明,我国中小学生在线学习应用力和内驱力水平较高,但意志力和认识力水平较低,在线学习力整体水平与学习准备度、学校环境、教师认识、家长意愿以及性别、学段、学校类别等背景信息显著相关。其中,小学生的在线学习力受教师认识和家长意愿的显著正向影响,中学生受教师与家长的影响不显著,受学校环境影响显著。据此,本https://maimai.cn/article/detail?fid=1527297080&efid=XUDmn34HY91HTKNshubb-A
13.培训学校优惠活动方案(通用10篇)xx潜能开发学习系统将被动学习变为主动学习。将好方法好思路贯穿与学生的日常行为中。解决广大学生不会学习,不懂方法的学习困扰。让成绩平平的孩子20天内学习成绩有个质的飞跃。 二.暑期招生方案。 1.招生主题:名校尖子夏令营——天才学生的秘密,让你20天快速提高成绩的方法。 https://www.ruiwen.com/peixunfangan/7325710.html
14.居家学习背景下,项目化学习如何设计?这所学校总结了三个关键因素学校在设计线上项目化学习时,充分考虑了三个因素,提出了“Home-Rigor-Online ”融合模式。 1 一个是“Home”,居家学习的背景和资源,居家学习是在疫情爆发,学生在线下学习转为居家线上学习的背景下发生的,项目化学习更多地需要因时而发、因地制宜,根据居家现有资源开发。 https://www.jfdaily.com/sgh/detail?id=748420
15.西方经济学论文(精选13篇)3、学生学习的主动性不强,大多处于被动状态。根据笔者教学实践经验来看,笔者在第一次课的时候会提出学习三步骤的要求:课前预习,课堂听讲,课后习题。但是在后面的教学中有很多学生并没有按照要求去做,在学习上非常被动,没有预习的同学上课大多都听不懂,由于西方经济学是一个系统性的课程,其理论连贯性很强,最终会产https://mip.yjbys.com/bylw/jingjixue/106957.html