预购商品
书目分类
特别推荐
本書全面講解了數據科學的相關知識,從統計分析學到機器學習、深度學習中用到的算法及模型,借鑒經濟學視角給出模型的相關解釋,深入探討模型的可用性,並結合大量的實際案例和代碼幫助讀者學以致用,將具體的應用場景和現有的模型相結合,從而更好地發現模型的潛在應用場景。 本書可作為數據科學家和數據工程師的學習用書,也適合對數據科學有強烈興趣的初學者使用,同時也可作為高等院校計算機、數學及相關專業的師生用書和培訓學校的教材。
第1章 數據科學概述 1 1.1 挑戰 2 1.1.1 工程實現的挑戰 2 1.1.2 模型搭建的挑戰 3 1.2 機器學習 5 1.2.1 機器學習與傳統程式設計 5 1.2.2 監督式學習和非監督式學習 8 1.3 統計模型 8 1.4 關於本書 10 第2章 Python安裝指南與簡介:告別空談 12 2.1 Python簡介 13 2.1.1 什麼是Python 15 2.1.2 Python在數據科學中的地位 16 2.1.3 不可能繞過的協力廠商庫 17 2.2 Python安裝 17 2.2.1 Windows下的安裝 18 2.2.2 Mac下的安裝 21 2.2.3 Linux下的安裝 24 2.3 Python上手實踐 26 2.3.1 Python shell 26 2.3.2 2 2個Python程式:Word Count 28 2.3.3 Python程式設計基礎 30 2.3.4 Python的工程結構 34 2.4 本章小結 35 第3章 數學基礎:惱人但又不可或缺的知識 36 3.1 矩陣和向量空間 37 3.1.1 標量、向量與矩陣 37 3.1.2 特殊矩陣 39 3.1.3 矩陣運算 39 3.1.4 代碼實現 42 3.1.5 向量空間 44 3.2 概率:量化隨機 46 3.2.1 定義概率:事件和概率空間 47 3.2.2 條件概率:資訊的價值 48 3.2.3 隨機變數:兩種不同的隨機 50 3.2.4 正態分佈:殊途同歸 52 3.2.5 P-value:自信的猜測 53 3.3 微積分 55 3.3.1 導數和積分:位置、速度 55 3.3.2 極限:變化的終點 57 3.3.3 複合函數:鏈式法則 58 3.3.4 多元函數:偏導數 59 3.3.5 極值與2值:2優選擇 59 3.4 本章小結 61 第4章 線性回歸:模型之母 62 4.1 一個簡單的例子 64 4.1.1 從機器學22角度看這個問題 66 4.1.2 從統計學的角度看這個問題 69 4.2 上手實踐:模型實現 73 4.2.1 機器學習代碼實現 74 4.2.2 統計方法代碼實現 77 4.3 模型陷阱 82 4.3.1 過度擬合:模型越複雜越好嗎 84 4.3.2 模型幻覺之統計學方案:假設檢驗 87 4.3.3 模型幻覺之機器學習方案:懲罰項 89 4.3.4 比較兩種方案 92 4.4 模型持久化 92 4.4.1 模型的生命週期 93 4.4.2 保存模型 93 4.5 本章小結 96 第5章 邏輯回歸:隱藏因數 97 5.1 二元分類問題:是與否 98 5.1.1 線性回歸:為何失效 98 5.1.2 窗口效應:看不見的才是關鍵 100 5.1.3 邏輯分佈:勝者生存 102 5.1.4 參數估計之似然函數:統計學角度 104 5.1.5 參數估計之損失函數:機器學習角度 104 5.1.6 參數估計之2終預測:從概率到選擇 106 5.1.7 空間變換:非線性到線性 106 5.2 上手實踐:模型實現 108 5.2.1 初步分析數據:直觀印象 108 5.2.2 搭建模型 113 5.2.3 理解模型結果 116 5.3 評估模型效果:孰優孰劣 118 5.3.1 查準率與查全率 119 5.3.2 ROC曲線與AUC 123 5.4 多元分類問題:22是與否 127 5.4.1 多元邏輯回歸:邏輯分佈的威力 128 5.4.2 One-vs.-all:從二元到多元 129 5.4.3 模型實現 130 5.5 非均衡數據集 132 5.5.1 準確度悖論 132 5.5.2 一個例子 133 5.5.3 解決方法 135 5.6 本章小結 136 第6章 工程實現:電腦是怎麼算的 138 6.1 演算法思路:模擬滾動 139 6.2 數值求解:梯度下降法 141 6.3 上手實踐:代碼實現 142 6.3.1 TensorFlow基礎 143 6.3.2 定義模型 148 6.3.3 梯度下降 149 6.3.4 分析運行細節 150 6.4 更優化的演算法:隨機梯度下降法 153 6.4.1 演算法細節 153 6.4.2 代碼實現 154 6.4.3 兩種演算法比較 156 6.5 本章小結 158 第7章 計量經濟學的啟示:他山之石 159 7.1 定量與定性:變數的數22算合理嗎 161 7.2 定性變數的處理 162 7.2.1 虛擬變數 162 7.2.2 上手實踐:代碼實現 164 7.2.3 從定性變數到定量變數 168 7.3 定量變數的處理 170 7.3.1 定量變數轉換為定性變數 171 7.3.2 上手實踐:代碼實現 171 7.3.3 基於卡方檢驗的方法 173 7.4 顯著性 175 7.5 多重共線性:多變數的煩惱 176 7.5.1 多重共線性效應 176 7.5.2 檢測多重共線性 180 7.5.3 解決方法 185 7.5.4 虛擬變數陷阱 188 7.6 內生性:變化來自何處 191 7.6.1 來源 192 7.6.2 內生性效應 193 7.6.3 工具變數 195 7.6.4 邏輯回歸的內生性 198 7.6.5 模型的聯結 200 7.7 本章小結 201 第8章 監督式學習: 目標明確 202 8.1 支持向量學習機 203 8.1.1 直觀例子 204 8.1.2 用數學理解直觀 205 8.1.3 從幾何直觀到2優化問題 207 8.1.4 損失項 209 8.1.5 損失函數與懲罰項 210 8.1.6 Hard margin 與soft margin比較 211 8.1.7 支援向量學習機與邏輯回歸:隱藏的假設 213 8.2 核函數 216 8.2.1 空間變換:從非線性到線性 216 8.2.2 拉格朗日對偶 218 8.2.3 支持向量 220 8.2.4 核函數的定義:優化運算 221 8.2.5 常用的核函數 222 8.2.6 Scale variant 225 8.3 決策樹 227 8.3.1 決策規則 227 8.3.2 評判標準 229 8.3.3 代碼實現 231 8.3.4 決策樹預測演算法以及模型的聯結 231 8.3.5 剪枝 235 8.4 樹的集成 238 8.4.1 隨機森林 238 8.4.2 Random forest embedding 239 8.4.3 GBTs之梯度提升 241 8.4.4 GBTs之演算法細節 242 8.5 本章小結 244 第9章 生成式模型:量化資訊的價值 246 9.1 貝葉斯框架 248 9.1.1 蒙提霍爾問題 248 9.1.2 條件概率 249 9.1.3 先驗概率與後驗概率 251 9.1.4 參數估計與預測公式 251 9.1.5 貝葉斯學派與頻率學派 252 9.2 樸素貝葉斯 254 9.2.1 特徵提取:文字到數位 254 9.2.2 伯努利模型 256 9.2.3 多項式模型 258 9.2.4 TF-IDF 259 9.2.5 文本分類的代碼實現 260 9.2.6 模型的聯結 265 9.3 判別分析 266 9.3.1 線性判別分析 267 9.3.2 線性判別分析與邏輯回歸比較 269 9.3.3 數據降維 270 9.3.4 代碼實現 273 9.3.5 二次判別分析 275 9.4 隱瑪律可夫模型 276 9.4.1 一個簡單的例子 276 9.4.2 瑪律可夫鏈 278 9.4.3 模型架構 279 9.4.4 中文分詞:監督式學習 280 9.4.5 中文分詞之代碼實現 282 9.4.6 股票市場:非監督式學習 284 9.4.7 股票市場之代碼實現 286 9.5 本章小結 289 第10章 非監督式學習:聚類與降維 290 10.1 K-means 292 10.1.1 模型原理 292 10.1.2 收斂過程 293 10.1.3 如何選擇聚類個數 295 10.1.4 應用示例 297 10.2 其他聚類模型 298 10.2.1 混合高斯之模型原理 299 10.2.2 混合高斯之模型實現 300 10.2.3 譜聚類之聚類結果 303 10.2.4 譜聚類之模型原理 304 10.2.5 譜聚類之圖片分割 307 10.3 Pipeline 308 10.4 主成分分析 309 10.4.1 模型原理 310 10.4.2 模型實現 312 10.4.3 核函數 313 10.4.4 Kernel PCA的數學原理 315 10.4.5 應用示例 316 10.5 奇異值分解 317 10.5.1 定義 317 10.5.2 截斷奇異值分解 317 10.5.3 潛在語義分析 318 10.5.4 大型推薦系統 320 10.6 本章小結 323 第11章 分散式機器學習:集體力量 325 11.1 Spark簡介 327 11.1.1 Spark安裝 328 11.1.2 從MapReduce到Spark 333 11.1.3 運行Spark 335 11.1.4 Spark DataFrame 336 11.1.5 Spark的運行架構 339 11.2 2優化問題的分散式解法 341 11.2.1 分散式機器學22原理 341 11.2.2 一個簡單的例子 342 11.3 大數據模型的兩個維度 344 11.3.1 數據量維度 344 11.3.2 模型數量維度 346 11.4 開源工具的另一面 348 11.4.1 一個簡單的例子 349 11.4.2 開源工具的阿喀琉斯之踵 351 11.5 本章小結 351 第12章 神經網路:模擬人的大腦 353 12.1 神經元 355 12.1.1 神經元模型 355 12.1.2 Sigmoid神經元與二元邏輯回歸 356 12.1.3 Softmax函數與多元邏輯回歸 358 12.2 神經網路 360 12.2.1 圖形表示 360 12.2.2 數學基礎 361 12.2.3 分類例子 363 12.2.4 代碼實現 365 12.2.5 模型的聯結 369 12.3 反向傳播演算法 370 12.3.1 隨機梯度下降法回顧 370 12.3.2 數學推導 371 12.3.3 演算法步驟 373 12.4 提高神經網路的學習效率 373 12.4.1 學22原理 373 12.4.2 啟動函數的改進 375 12.4.3 參數初始化 378 12.4.4 不穩定的梯度 380 12.5 本章小結 381 第13章 深度學習:繼續探索 383 13.1 利用神經網路識別數位 384 13.1.1 搭建模型 384 13.1.2 防止過擬合之懲罰項 386 13.1.3 防止過擬合之dropout 387 13.1.4 代碼實現 389 13.2 卷積神經網路 394 13.2.1 模型結構之卷積層 395 13.2.2 模型結構之池化層 397 13.2.3 模型結構之完整結構 399 13.2.4 代碼實現 400 13.2.5 結構真的那麼重要嗎 405 13.3 其他深度學習模型 406 13.3.1 遞迴神經網路 406 13.3.2 長短期記憶 407 13.3.3 非監督式學習 409 13.4 本章小結 411
唐亘,數據科學家,專注於機器學習和大數據。曾獲得復旦大學的數學和計算機雙學士學位;巴黎綜合理工的金融碩士學位;法國國立統計與經濟管理學校的數據科學碩士學位。熱愛並積極參與Apache Spark和Scikit-Learn等開源項目。作為講師和技術顧問,為多家機構(包括惠普、華為、復旦大學等)提供百余場技術培訓。此前的工作和研究集中於經濟和量化金融,曾參與經濟合作與發展組織(OECD)的研究項目並發表論文,並擔任英國知名在線出版社Packt的技術審稿人。
客服公告
热门活动
订阅电子报