图书介绍

增强学习与近似动态规划【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

徐昕著著
出版社：北京：科学出版社
ISBN：9787030275653
出版时间：2010
标注页数：212页
文件大小：20MB
文件页数：224页
主题词：机器学习－研究；动态规划－研究

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：1bb82d577d47eeaa0536e1883d70972e

下载说明

增强学习与近似动态规划PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章　绪论1

1.1 引言1

1.2　增强学习与近似动态规划的研究概况4

1.2.1　增强学习研究的相关学科背景5

1.2.2　增强学习算法的研究进展7

1.2.3　增强学习的泛化方法与近似动态规划10

1.2.4　增强学习相关理论研究与多Agent增强学习13

1.2.5　增强学习应用的研究进展15

1.3　移动机器人导航控制方法的研究现状和发展趋势17

1.3.1　移动机器人体系结构的研究进展18

1.3.2　移动机器人反应式导航方法的研究概况19

1.3.3　移动机器人路径跟踪控制的研究概况21

1.4　全书的组织结构21

参考文献24

第2章　线性时域差值学习理论与算法32

2.1　Markov链与多步学习预测问题33

2.1.1　Markov链的基础理论33

2.1.2　基于Markov链的多步学习预测问题36

2.2　TD（λ）学习算法37

2.2.1　表格型TD（λ）学习算法37

2.2.2　基于值函数逼近的TD（λ）学习算法40

2.3　多步递推最小二乘TD学习算法及其收敛性理论41

2.3.1　多步递推最小二乘TD（RLS-TD（λ））学习算法42

2.3.2　RLS-TD（λ）学习算法的一致收敛性分析44

2.4　多步学习预测的仿真研究47

2.4.1　HopWorld问题学习预测仿真47

2.4.2　连续状态随机行走问题的学习预测仿真49

2.5　小结51

参考文献52

第3章　基于核的时域差值学习算法53

3.1　核方法与基于核的学习机器53

3.1.1　核函数的概念与性质53

3.1.2　再生核Hilbert空间与核函数方法54

3.2　核最小二乘时域差值学习算法56

3.2.1　线性TD（λ）学习算法58

3.2.2　KLS-TD（λ）学习算法60

3.2.3　学习预测实验与比较64

3.3　小结65

参考文献65

第4章　求解Markov决策问题的梯度增强学习算法67

4.1　Markov决策过程与表格型增强学习算法69

4.1.1　Markov决策过程及其最优值函数69

4.1.2　表格型增强学习算法及其收敛性理论71

4.2　基于改进CMAC的直接梯度增强学习算法74

4.2.1　CMAC的结构74

4.2.2　基于CMAC的直接梯度增强学习算法76

4.2.3　两种改进的CMAC编码结构及其应用实例78

4.3　基于值函数逼近的残差梯度增强学习算法87

4.3.1　多层前馈神经网络函数逼近器与已有的梯度增强学习算法88

4.3.2　非平稳策略残差梯度（RGNP）增强学习算法89

4.3.3　RGNP学习算法的收敛性和近似最优策略性能的理论分析91

4.3.4　Mountain-Car问题的仿真研究92

4.3.5　Acrobot学习控制的仿真研究96

4.4　求解连续行为空间Markov决策问题的快速AHC学习算法101

4.4.1　AHC学习算法与Actor-Critic学习控制结构101

4.4.2　Fast-AHC学习算法103

4.4.3　连续控制量条件下的倒立摆学习控制仿真研究103

4.4.4　连续控制量条件下Acrobot系统的学习控制107

4.5　小结108

参考文献109

第5章　求解Markov决策问题的进化-梯度混合增强学习算法112

5.1　进化计算的基本原理和方法113

5.1.1　进化计算的基本原理和算法框架113

5.1.2　进化算法的基本要素114

5.1.3　进化算法的控制参数和性能评估117

5.2　求解离散行为空间MDP的进化-梯度混合算法118

5.2.1　HERG算法的设计要点120

5.2.2　HERG算法的流程122

5.2.3　HERG算法的应用实例：Mountain-Car学习控制问题123

5.2.4　Acrobot系统的进化增强学习仿真125

5.3　求解连续行为空间MDP的进化-梯度混合增强学习算法129

5.3.1　进化AHC算法129

5.3.2　连续控制量条件下Acrobot系统的进化增强学习仿真131

5.4　小结132

参考文献133

第6章　基于核的近似动态规划算法与理论134

6.1　增强学习与近似动态规划的若干核心问题135

6.2　基于核的近似策略迭代算法与收敛性理论137

6.2.1　策略迭代与TD学习算法137

6.2.2　核策略选代算法KLSPI的基本框架138

6.2.3　采用核稀疏化技术的KLSTD-Q时域差值算法141

6.2.4　KLSPI算法的收敛性分析143

6.3　核策略迭代算法的性能测试实验研究145

6.3.1　具有20个状态的随机Markov链问题146

6.3.2　具有50个状态的随机Markov决策问题151

6.3.3　随机倒立摆学习控制问题154

6.4　小结157

参考文献158

第7章　基于增强学习的移动机器人反应式导航方法160

7.1　基于分层学习的移动机器人混合式体系结构161

7.2　基于增强学习的移动机器人反应式导航体系结构与算法165

7.2.1　未知环境中移动机器人导航混合式体系结构的具体设计165

7.2.2　基于神经网络增强学习的反应式导航算法167

7.3　移动机器人增强学习导航的仿真和实验研究169

7.3.1　CIT-AVT-VI移动机器人平台的传感器系统与仿真实验环境169

7.3.2　增强学习导航的仿真研究171

7.3.3　CIT-AVT-VI移动机器人的实时学习导航控制实验173

7.4　小结177

参考文献177

第8章　RL与ADP在移动机器人运动控制中的应用179

8.1　基于增强学习的自适应PID控制器180

8.2 自动驾驶汽车的侧向增强学习控制183

8.2.1 自动驾驶汽车的动力学模型183

8.2.2　用于自动驾驶汽车侧向控制的增强学习PID控制器设计184

8.2.3　自动驾驶汽车直线路径跟踪仿真185

8.3　基于在线增强学习的室内移动机器人路径跟踪控制188

8.3.1　一类室内移动机器人系统的运动学和动力学模型188

8.3.2　增强学习路径跟踪控制器设计189

8.3.3　参考路径为直线时的仿真研究189

8.3.4　参考路径为圆弧时的仿真研究191

8.3.5　CIT-AVT-VI移动机器人实时在线学习路径跟踪实验192

8.4　采用近似策略迭代的移动机器人学习控制方法研究194

8.4.1　基于近似策略迭代的学习控制方法与仿真研究194

8.4.2　基于P3-AT平台的学习控制器设计198

8.4.3　直线跟随实验201

8.4.4　曲线跟随实验203

8.5　小结205

参考文献206

第9章　总结与展望208

参考文献211