预购商品
书目分类
特别推荐
序言 i 前言 v 常用符號 xi 第一部分 基礎知識 第1章 機器學習基礎 2 1.1 線性模型 2 1.1.1 線性回歸 2 1.1.2 邏輯斯諦回歸 4 1.1.3 softmax分類器 7 1.2 神經網路 10 1.2.1 全連接神經網路 10 1.2.2 卷積神經網路 11 1.3 梯度下降和反向傳播 12 1.3.1 梯度下降 13 1.3.2 反向傳播 14 知識點小結 16 習題 16 第2章 蒙特卡洛方法 18 2.1 隨機變數 18 2.2 蒙特卡洛方法實例 21 2.2.1 例一:近似π值 21 2.2.2 例二:估算陰影部分面積 23 2.2.3 例三:近似定積分 25 2.2.4 例四:近似期望 26 2.2.5 例五:隨機梯度 27 知識點小結 29 習題 29 第3章 強化學習基本概念 31 3.1 瑪律可夫決策過程 31 3.1.1 狀態、動作、獎勵 31 3.1.2 狀態轉移 32 3.2 策略 33 3.3 隨機性 35 3.4 回報與折扣回報 37 3.4.1 回報 37 3.4.2 折扣回報 37 3.4.3 回報中的隨機性 38 3.4.4 有限期MDP和無限期MDP 39 3.5 價值函數 39 3.5.1 動作價值函數 40 3.5.2 最優動作價值函數 40 3.5.3 狀態價值函數 41 3.6 實驗環境:OpenAI Gym 42 知識點小結 44 習題 44 第二部分 價值學習 第4章 DQN與Q學習 48 4.1 DQN 48 4.1.1 概念回顧 48 4.1.2 DQN運算式 49 4.1.3 DQN的梯度 50 4.2 TD演算法 50 4.2.1 駕車時間預測示例 50 4.2.2 TD演算法的原理 51 4.3 用TD訓練DQN 53 4.3.1 演算法推導 53 4.3.2 訓練流程 55 4.4 Q 學習演算法 57 4.4.1 表格形式的Q學習 57 4.4.2 演算法推導 57 4.4.3 訓練流程 58 4.5 同策略與異策略 59 相關文獻 60 知識點小結 61 習題 61 第5章 SARSA演算法 63 5.1 表格形式的SARSA 63 5.1.1 演算法推導 63 5.1.2 訓練流程 64 5.1.3 Q學習與SARSA的對比 65 5.2 神經網路形式的SARSA 66 5.2.1 價值網路 66 5.2.2 演算法推導 66 5.2.3 訓練流程 67 5.3 多步TD目標 68 5.3.1 演算法推導 68 5.3.2 多步TD目標的原理 69 5.3.3 訓練流程 70 5.4 蒙特卡洛方法與自舉 70 5.4.1 蒙特卡洛方法 71 5.4.2 自舉 71 5.4.3 蒙特卡洛方法和自舉的對比 72 相關文獻 73 知識點小結 73 習題 74 第6章 價值學習高級技巧 75 6.1 經驗重播 75 6.1.1 經驗重播的優點 76 6.1.2 經驗重播的局限性 76 6.1.3 優先經驗重播 77 6.2 高估問題及解決方法 79 6.2.1 自舉導致偏差傳播 79 6.2.2 最大化導致高估 80 6.2.3 高估的危害 81 6.2.4 使用目標網路 82 6.2.5 雙Q學習演算法 84 6.2.6 總結 85 6.3 對決網路 86 6.3.1 最優優勢函數 86 6.3.2 對決網路的結構 87 6.3.3 解決不唯一性 88 6.3.4 對決網路的實際實現 89 6.4 雜訊網路 90 6.4.1 雜訊網路的原理 90 6.4.2 雜訊DQN 91 6.4.3 訓練流程 93 相關文獻 94 知識點小結 94 習題 94 第三部分 策略學習 第7章 策略梯度方法 98 7.1 策略網路 98 7.2 策略學習的目標函數 99 7.3 策略梯度定理 101 7.3.1 簡化證明 101 7.3.2 嚴格證明 102 7.3.3 近似策略梯度 106 7.4 REINFORCE 107 7.4.1 簡化推導 108 7.4.2 訓練流程 108 7.4.3 嚴格推導 109 7.5 actor-critic 110 7.5.1 價值網路 110 7.5.2 演算法推導 111 7.5.3 訓練流程 114 7.5.4 用目標網路改進訓練 114 相關文獻 115 知識點小結 115 習題 116 第8章 帶基線的策略梯度方法 117 8.1 策略梯度中的基線 117 8.1.1 基線的引入 117 8.1.2 基線的直觀解釋 118 8.2 帶基線的REINFORCE演算法 119 8.2.1 策略網路和價值網路 120 8.2.2 演算法推導 121 8.2.3 訓練流程 121 8.3 advantage actor-critic 122 8.3.1 演算法推導 123 8.3.2 訓練流程 125 8.3.3 用目標網路改進訓練 126 8.4 證明帶基線的策略梯度定理 127 知識點小結 128 習題 128 第9章 策略學習高級技巧 129 9.1 置信域策略優化 129 9.1.1 置信域方法 129 9.1.2 策略學習的目標函數 132 9.1.3 演算法推導 133 9.1.4 訓練流程 135 9.2 策略學習中的熵正則 135 相關文獻 138 知識點小結 138 第10章 連續控制 139 10.1 連續空間的離散化 139 10.2 深度確定性策略梯度 140 10.2.1 策略網路和價值網路 140 10.2.2 演算法推導 142 10.3 深入分析DDPG 145 10.3.1 從策略學習的角度看待DDPG 145 10.3.2 從價值學習的角度看待DDPG 146 10.3.3 DDPG的高估問題 147 10.4 雙延遲深度確定性策略梯度 148 10.4.1 高估問題的解決方案——目標網路 148 10.4.2 高估問題的解決方案——截斷雙Q學習 148 10.4.3 其他改進點 149 10.4.4 訓練流程 150 10.5 隨機高斯策略 151 10.5.1 基本思路 152 10.5.2 隨機高斯策略網路 153 10.5.3 策略梯度 154 10.5.4 用REINFORCE學習參數 155 10.5.5 用actor-critic學習參數 155 相關文獻 157 知識點小結 157 第11章 對狀態的不完全觀測 158 11.1 不完全觀測問題 158 11.2 迴圈神經網路 159 11.3 基於RNN的策略網路 161 相關文獻 162 知識點小結 163 習題 163 第12章 模仿學習 165 12.1 行為克隆 165 12.1.1 連續控制問題 165 12.1.2 離散控制問題 166 12.1.3 行為克隆與強化學習的對比 168 12.2 逆向強化學習 169 12.2.1 IRL的基本設定 169 12.2.2 IRL的基本思想 170 12.2.3 從黑箱策略反推獎勵 170 12.2.4 用獎勵函數訓練策略網路 171 12.3 生成判別模仿學習 171 12.3.1 生成判別網路 172 12.3.2 GAIL的生成器和判別器 175 12.3.3 GAIL的訓練 176 相關文獻 178 知識點小結 179 第四部分 多智慧體強化學習 第13章 平行計算 182 13.1 平行計算基礎 182 13.1.1 並行梯度下降 182 13.1.2 MapReduce 183 13.1.3 用 MapReduce實現並行梯度下降 184 13.1.4 平行計算的代價 187 13.2 同步與非同步 188 13.2.1 同步演算法 188 13.2.2 非同步演算法 189 13.2.3 同步梯度下降與非同步梯度下降的對比 191 13.3 並行強化學習 191 13.3.1 非同步並行雙Q學習 191 13.3.2 A3C:非同步並行A2C 193 相關文獻 195 知識點小結 195 習題 196 第14章 多智慧體系統 197 14.1 常見設定 197 14.2 基本概念 199 14.2.1 專業術語 199 14.2.2 策略網路 200 14.2.3 動作價值函數 200 14.2.4 狀態價值函數 201 14.3 實驗環境 202 14.3.1 multi-agent particle world 202 14.3.2 StarCraft multi-agent challenge 204 14.3.3 Hanabi Challenge 205 相關文獻 206 知識點小結 206 第15章 完全合作關係設定下的多智慧體強化學習 207 15.1 完全合作關係設定下的策略學習 208 15.2 完全合作關係設定下的多智慧體A2C 209 15.2.1 策略網路和價值網路 209 15.2.2 訓練和決策 211 15.2.3 實現中的難點 212 15.3 三種架構 213 15.3.1 中心化訓練+中心化決策 214 15.3.2 去中心化訓練+去中心化決策 215 15.3.3 中心化訓練+去中心化決策 217 相關文獻 219 知識點小結 220 習題 220 第16章 非合作關係設定下的多智能體強化學習 221 16.1 非合作關係設定下的策略學習 222 16.1.1 非合作關係設定下的目標函數 222 16.1.2 收斂的判別 223 16.1.3 評價策略的優劣 223 16.2 非合作關係設定下的多智能體A2C 224 16.2.1 策略網路和價值網路 224 16.2.2 演算法推導 225 16.2.3 訓練 226 16.2.4 決策 227 16.3 三種架構 227 16.3.1 中心化訓練+中心化決策 227 16.3.2 去中心化訓練+去中心化決策 228 16.3.3 中心化訓練+去中心化決策 229 16.4 連續控制與MADDPG 231 16.4.1 策略網路和價值網路 231 16.4.2 演算法推導 232 16.4.3 中心化訓練 234 16.4.4 去中心化決策 236 相關文獻 237 知識點小結 237 第17章 注意力機制與多智慧體強化學習 238 17.1 自注意力機制 238 17.1.1 自注意力層 239 17.1.2 多頭自注意力層 241 17.2 自注意力改進多智能體強化學習 242 17.2.1 不使用自注意力的狀態價值網路 242 17.2.2 使用自注意力的狀態價值網路 243 17.2.3 使用自注意力的動作價值網路 244 17.2.4 使用自注意力的中心化策略網路 244 17.2.5 總結 245 相關文獻 245 知識點小結 245 習題 246 第五部分 應用與展望 第18章 AlphaGo與蒙特卡洛樹搜索 248 18.1 強化學習眼中的圍棋 248 18.2 蒙特卡洛樹搜索 250 18.2.1 MCTS的基本思想 250 18.2.2 MCTS的四個步驟 250 18.2.3 MCTS的決策 255 18.3 訓練策略網路和價值網路 255 18.3.1 AlphaGo 2016版本的訓練 256 18.3.2 AlphaGo Zero版本的訓練 258 相關文獻 260 知識點小結 260 習題 261 第19章 現實世界中的應用 262 19.1 神經網路結構搜索 262 19.1.1 超參數和交叉驗證 262 19.1.2 強化學習方法 264 19.2 自動生成SQL語句 266 19.3 推薦系統 268 19.4 網約車調度 270 19.4.1 價值學習 271 19.4.2 派單機制 271 19.5 強化學習與監督學習的對比 273 19.5.1 決策是否改變環境 273 19.5.2 當前獎勵還是長線回報 274 19.6 制約強化學習落地應用的因素 275 19.6.1 所需的樣本數量過大 275 19.6.2 探索階段代價太大 276 19.6.3 超參數的影響非常大 277 19.6.4 穩定性極差 278 知識點小結 279 附錄A 貝爾曼方程 281 附錄B 習題答案 283 參考文獻 288
王樹森 現任小紅書基礎模型團隊負責人,從事搜索和推薦演算法研發工作。從浙江大學獲得計算機學士和博士學位,就讀期間獲得“微軟學者”和“百度獎學金”等多項榮譽。在加入小紅書之前,曾任美國加州大學伯克利分校博士後、美國史蒂文斯理工學院助理教授、博導。在機器學習、強化學習、數值計算、分散式運算等方向有多年科研經驗,在計算機國際頂級期刊和會議上發表30多篇論文。 在YouTube、B站開設“深度強化學習”“深度學習”“推薦系統”公開課(ID:Shusen Wang),全網視頻播放量超過100萬次。 黎彧君 華為諾亞方舟實驗室高級研究員,主要從事AutoML相關的研發工作。上海交通大學博士,研究方向為數值優化、強化學習;攻讀博士學位期間曾前往普林斯頓大學訪問一年。共同翻譯出版“花書”《深度學習》。 張志華 北京大學數學科學學院教授。此前先後執教于浙江大學和上海交通大學,任計算機科學教授。主要從事統計學、機器學習與計算機科學領域的研究和教學。曾主講“統計機器學習”“機器學習導論”“深度學習”“強化學習”,其課程視頻廣受歡迎。
客服公告
热门活动
订阅电子报