预购商品
书目分类
特别推荐
強化學習是目前機器學習乃至人工智慧領域發展快的分支之一。強化學習的基本思想是通過與環境的交互、智慧體或智慧演算法獲取相關智慧,其具體過程就是根據環境回饋得到的獎勵不斷調整自身的策略進而獲得獎勵決策的學習歷程。本書主要講述了強化學習的基本原理和基本方法,基於強化學習的控制、決策和優化方法設計與理論分析,深度強化學習原理以及平行強化學習等未來強化學習的發展新方向,展示從先行後知到先知後行,再到知行合一的混合平行智慧思路。本書可作為高等學校人工智慧、機器學習、智慧控制、智慧決策、智慧管理、系統工程以及應用數學等專業的本科生或研究生教材,亦可供相關專業科研人員和工程技術人員參考。
第1章 強化學習概論 1.1 引言 1.2 強化學習的發展歷程 1.3 強化學習的研究現狀 1.4 本書內容架構 參考文獻 第2章 瑪律可夫決策過程 2.1 瑪律可夫決策過程 2.2 策略與代價函數 2.3 策略與 代價函數 參考文獻 第3章 動態規劃 3.1 動態規劃的興起 3.2 動態規劃基本思想:多級決策過程 3.3 性原理與遞推方程 3.4 離散時間動態規劃 3.5 連續時間動態規劃 3.6 動態規劃的挑戰 參考文獻 第4章 蒙特卡洛學習方法 4.1 蒙特卡洛方法背景 4.1.1 蒙特卡洛方法的由來 4.1.2 基於模型的演算法與無模型演算法比較 4.1.3 蒙特卡洛模擬的思路 4.2 蒙特卡洛預測 4.2.1 初次訪問蒙特卡洛預測 4.2.2 歷次訪問蒙特卡洛預測 4.2.3 增量計算技巧 4.3 蒙特卡洛控制 4.3.1 初始探索問題 4.3.2 在策方法:ε-貪心演算法 4.3.3 脫策演算法:重要性採樣 4.4 蒙特卡洛強化學習演算法總結 參考文獻 第5章 時序差分學習 5.1 時序差分學習基本概念 5.2 時序差分學習演算法 5.3 n步回報 5.4 TD(λ)演算法 參考文獻 第6章 神經網路 6.1 神經網路的發展歷史 6.2 MP神經元模型 6.3 前饋神經網路 6.3.1 感知機 6.3.2 誤差反向傳播演算法 6.3.3 徑向基網路 6.4 其他常見的神經網路 6.4.1 ART網路 6.4.2 Hopfield網路 6.4.3 Boltzmann機 參考文獻 第7章 自我調整動態規劃 7.1 問題描述 7.2 自我調整動態規劃的原理 7.3 自我調整動態規劃的分類 7.3.1 啟發式動態規劃 7.3.2 二次啟發式規劃 7.3.3 執行依賴啟發式動態規劃 7.3.4 執行依賴二次啟發式規劃 7.4 基於執行依賴的自我調整動態規劃方法 7.4.1 問題描述 7.4.2 基於執行依賴的自我調整動態規劃方法 參考文獻 第8章 策略反覆運算學習方法 8.1 啟發式學習原理 8.2 離散時間策略反覆運算自我調整動態規劃 8.2.1 策略反覆運算演算法的推導 8.2.2 策略反覆運算演算法的性質 8.2.3 初始容許控制律的獲得 8.2.4 模擬實驗 8.3 連續時間策略反覆運算自我調整動態規劃 8.3.1 連續時間策略反覆運算演算法 8.3.2 連續時間策略反覆運算自我調整動態規劃的性能分析 參考文獻 第9章 值反覆運算學習方法 9.1 值反覆運算學習原理 9.2 離散時間值反覆運算自我調整動態規劃 9.2.1 離散時間非線性系統的Bellman方程解 9.2.2 廣義值反覆運算自我調整動態規劃 9.3 連續時間值反覆運算自我調整動態規劃 9.3.1 問題描述 9.3.2 主要結果 參考文獻 第10章 Q—學習方法 10.1 無模型強化學習 10.2 Q—學習原理 10.3 離散時間確定性Q—學習 10.3.1 問題描述 10.3.2 離散時間確定性Q—學習演算法的性質 10.3.3 離散時間確定性Q—學習演算法的神經網路實現 10.3.4 模擬實驗 10.4 Q—學習進展 參考文獻 第11章 脫策學習 11.1 脫策學習的興盛 11.2 脫策學習的基本思想 11.2.1 問題描述 11.2.2 相關研究工作 11.3 脫策學習過程 11.3.1 脫策強化學習 11.3.2 基於神經網路的實現 11.4 脫策學習收斂性分析 11.5 基於脫策強化學習的線性□(數理化公式)控制 11.6 模擬實驗 參考文獻 第12章 深度強化學習 12.1 深度學習基本概念 12.1.1 深度學習的起源 12.1.2 深度學習與傳統機器學習 12.1.3 深度學習的運用環境 12.2 深度神經網路 12.2.1 深度神經網路溯源 12.2.2 梯度下降法 12.2.3 反向傳播 12.2.4 動量模型 12.2.5 學習律 12.3 卷積神經網路 12.3.1 卷積神經網路介紹 12.3.2 卷積層 12.3.3 採樣層 12.3.4 分類層 12.3.5 經典卷積神經網路結構 12.4 迴圈神經網路 12.4.1 迴圈神經網路介紹 12.4.2 長短期記憶模型 12.5 生成對抗網路 12.6 深度強化學習基本理論 12.6.1 Q函數 12.6.2 策略 12.6.3 效用值 12.6.4 模型 12.6.5 規劃 12.7 深度強化學習實際應用 12.7.1 遊戲 12.7.2 機器人與控制 12.7.3 自然語言處理 12.7.4 電腦視覺 12.8 未來待解決的問題 12.8.1 採樣效率低下 12.8.2 難以尋找合適的效用函數 12.8.3 局部 陷阱 12.8.4 過擬合問題 12.8.5 複現難題 12.8.6 適用場景與未來思考 參考文獻 第13章 強化學習展望:平行強化學習 13.1 自我調整動態規劃與深度強化學習 13.2 平行控制理論的基本思想 13.3 平行動態規劃方法 參考文獻
客服公告
热门活动
订阅电子报