转载近似动态规划与强化学习入门步骤stevenbush|强化学习最新进展_在线学习

Lendaris对控制工程发展阶段进行了划分：

第一阶段为反馈机制的引入；

第二阶段的特点是通过微分方程对动态系统进行分析，Fourier和Laplace变换,状态空间法、随机方法、Hilbert空间等数学工具奠定了控制系统分析的理论基础，在此基础上发展起了经典控制、现代控制。最优控制、随机控制和鲁棒控制等理论和方法。

第三阶段的特点是可在线选择控制器，如自适应控制和学习控制，通过状态观测和性能评价在一个特定的控制器集合内在线选择控制器，却仍不具备经验策略的记忆能力。Lendaris认为第四阶段的控制系统应该是具有经验记忆能力的，能够利用以往的经验更为有效、高效地实施控制。

那么，实现经验记忆具体方法是什么？是的，强化学习。

Lewis的几篇重要综述还是需要读的：

2009ReinforcementLearningandAdaptiveDynamicProgrammingforFeedbackControl2011ApproximatereinforcementlearningAnoverview

另外，ReinforcementLearningState-Of-the-Art这本书各方面介绍的很详细了，体现的是欧洲体系。

下面是几本书，请依次阅读。（大部分我都上传至新浪共享了，感兴趣的可以去找一下）

1.强化学习入门

ReinforcementLearning:AnIntroduction

2.强化学习最新进展

ReinforcementLearning:State-of-the-Art(Adaptation,Learning,andOptimization)

3.强化学习算法

AlgorithmsforReinforcementLearning(SynthesisLecturesonArtificialIntelligenceandMachineLearning)

4.近似动态规划专题

ReinforcementLearningandDynamicProgrammingUsingFunctionApproximators

ReinforcementLearningandApproximateDynamicProgrammingforFeedbackControl

ApproximateDynamicProgramming

国内的图书有木有？回答有！我看到的有两本，但需要一定的基础，至少需要掌握1，3以及4中某一本的知识才能看

第一本徐昕的主要研究的是线性时域差值、核方法等

第二本

用摄动分析的方法，将马尔可大决策过程、强化学习、辨识和自适应控制等学习和优化的不同学科统一起来，思想比较屌，对内功要求也比较高。

THE END

转载近似动态规划与强化学习入门步骤stevenbush