预购商品
书目分类
特别推荐
前 言 第 1 章 一些基本概念 1.1 統計: 作為數據科學 1 1.2 現實中的隨機性和規律性, 概率和機會 2 1.3 變數和數據 3 1.4 變數之間的關係 4 1.4.1 定性變數間的關係 6 1.4.2 定性和定量變數間的混合關係 7 1.5 統計、電腦與統計軟體 9 1.6 本章的 Python 代碼 10 1.7 習題 11 第 2 章 數據的收集 2.1 數據是怎樣得到的? 12 2.2 個體、總體和樣本 13 2.3 參考資料: 抽樣調查和一些常用的方法 14 2.3.1 概述 14 2.3.2 概率抽樣例子 15 2.3.3 非概率抽樣例子 16 2.3.4 收集數據時的誤差 16 2.3.5 問卷調查的問題 16 2.4 習題 17 第 3 章 數據的描述 3.1 如何用圖來表示數據? 18 3.1.1 定量變數的圖表示: 長條圖、盒形圖、莖葉圖和散點圖 18 3.1.2 定性變數的圖表示: 圓形圖和橫條圖 22 3.1.3 其他圖描述法 23 3.2 如何用少量數字來概括數據? 25 3.2.1 數據的“位置” 25 3.2.2 數據的“尺度” 27 3.2.3 數據的標準得分 28 3.3 本章的 Python 代碼 30 3.3.1 長條圖 30 3.3.2 盒形圖 31 3.3.3 莖葉圖 31 3.3.4 散點圖 32 3.3.5 圓形圖 32 3.3.6 橫條圖 33 3.3.7 數據的標準得分 34 3.4 習題 34 第 4 章 機會的度量: 概率和分佈 4.1 得到概率的幾種途徑 35 4.2 概率的運算 36 4.3 變數的分佈 38 4.3.1 離散隨機變數 39 4.3.2 離散分佈例子: 二項分佈 39 4.3.3 離散分佈例子: 多項分佈 41 4.3.4 離散分佈例子: Poisson 分佈 41 4.3.5 離散分佈例子: 超幾何分佈 42 4.3.6 連續隨機變數 43 4.3.7 累積分佈函數 44 4.3.8 連續分佈例子: 正態分佈 45 4.3.9 通過正態分佈說明連續分佈的概率 46 4.3.10 連續分佈例子: 均勻分佈 47 4.3.11 實際數據中變數的經驗分佈 48 4.4 抽樣分佈 51 4.4.1 什麼是抽樣分佈 51 4.4.2 中心極限定理 52 4.5 本章的 Python 代碼 53 4.5.1 二項分佈 53 4.5.2 Poisson 分佈 54 4.5.3 連續隨機變數的分佈 55 4.5.4 正態分佈 56 4.5.5 均勻分佈 57 4.5.6 經驗分佈 58 4.5.7 抽樣分佈 60 4.6 習題 61 第 5 章 有監督學習——回歸和分類 5.1 問題的提出 62 5.1.1 多變數相互作用的真實世界 62 5.1.2 數據科學的核心是有監督學習的預測 62 5.2 通過數據案例理解有監督學習:分類問題 63 5.2.1 例 5.1 欺詐競標數據 63 5.2.2 探索性數據分析 63 5.2.3 建立一個決策樹分類模型 65 5.2.4 如何選擇分類決策樹的拆分變數 67 5.2.5 預測精度的交叉驗證 68 5.2.6 例 5.1 欺詐競標數據決策樹分類的變數重要性 69 5.3 通過數據案例理解有監督學習:回歸問題 70 5.3.1 例 5.2 混凝土強度數據 70 5.3.2 探索性數據分析 70 5.3.3 建立一個決策樹回歸模型 71 5.3.4 如何選擇回歸決策樹的拆分變數 73 5.3.5 回歸中的交叉驗證預測精度與殘差的區別 73 5.3.6 例 5.2 混凝土強度數據回歸預測精度的交叉驗證 75 5.3.7 例 5.2 混凝土強度數據決策樹回歸的變數重要性 75 5.4 若干有監督學習模型 76 5.4.1 更多的例子 76 5.4.2 兩類模型的概述及交叉驗證 77 5.4.3 bagging 分類和回歸 79 5.4.4 adaboost 分類 82 5.4.5 隨機森林分類和回歸 83 5.4.6 SVM 分類和回歸 89 5.4.7 最小二乘線性回歸 90 5.4.8 用於二分類的 logistic 回歸 93 5.4.9 線性判別分析分類 94 5.5 本章自編 R 函數和一些作圖代碼 95 5.5.1 平衡分類因變數各水準的分折函數 96 5.5.2 單獨模型的分類交叉驗證函數(只用于本章的模型) 96 5.5.3 單獨模型的回歸交叉驗證函數(只用于本章的模型) 97 5.5.4 課文中一些圖的代碼 97 5.6 本章的 Python 代碼 100 5.6.1 一些需要的模組 100 5.6.2 通過數據案例理解有監督學習:分類問題 101 5.6.3 通過數據案例理解有監督學習:回歸問題 103 5.6.4 模型的概述及交叉驗證 104 5.6.5 bagging 分類和回歸 106 5.6.6 adaboost 分類 107 5.6.7 隨機森林分類和回歸 108 5.6.8 SVM 分類和回歸 109 5.6.9 最小二乘線性回歸 110 5.6.10 logistic 回歸二分類 112 5.6.11 線性判別分析做多分類 112 5.6.12 本章要用的一些 Python 自編函數 113 5.7 參考資料 116 5.7.1 線性判別分析的一些數學細節 * 116 5.7.2 支持向量機的一些數學細節 ∗ 117 5.8 習題 118 第 6 章 無監督學習——多元分析 6.1 尋找多個變數的代表: 主成分分析和因數分析 120 6.1.1 主成分分析 121 6.1.2 因數分析 127 6.1.3 因數分析和主成分分析的一些注意事項 129 6.2 把對象分類: 聚類分析 130 6.2.1 如何度量距離遠近? 130 6.2.2 事先要確定分多少類: k 均值聚類 131 6.2.3 事先不用確定分多少類: 分層聚類 132 6.2.4 聚類要注意的問題 133 6.3 兩組變數之間的相關:典型相關分析 134 6.3.1 兩組變數的相關問題 134 6.3.2 典型相關分析 134 6.4 列聯表行變數和列變數的關係:對應分析 137 6.5 參考資料: 一些概括及公式 139 6.5.1 主成分分析和因數分析 139 6.5.2 聚類分析 141 6.5.3 典型相關分析 141 6.5.4 對應分析 142 6.6 本章的 Python 代碼 144 6.6.1 主成分分析 144 6.6.2 因數分析 147 6.6.3 聚類分析 148 6.6.4 典型相關分析 150 6.6.5 對應分析 152 6.7 習題 153 第 7 章 隨時間變化的物件: 時間序列分析 7.1 概述 154 7.2 時間序列的組成部分 155 7.3 指數平滑 156 7.4 Box-Jenkins 方法: ARIMA 模型 157 7.4.1 ARIMA 模型介紹 157 7.4.2 ARMA 模型的識別和估計 159 7.4.3 用 ARIMA 模型擬合 162 7.5 參考資料: 一些概括及公式 166 7.5.1 指數平滑模型 166 7.5.2 ARIMA 模型 167 7.6 本章的 Python 代碼 168 7.6.1 時序的組成和指數平滑 168 7.6.2 ARIMA 模型 170 7.7 習題 172 第 8 章 生存分析簡介 8.1 對生命數據的簡單描述 177 8.2 Cox 比例危險模型 178 8.3 本章的 Python 代碼 180 8.3.1 生存函數圖 180 8.3.2 生命表 181 8.3.3 Cox 比例危險率模型 182 8.4 習題 183 第 9 章 基本軟體: R 和 Python 9.1 R簡介——為領悟而運行 184 9.1.1 簡介 184 9.1.2 安裝和運行小貼士 185 9.1.3 動手 187 9.1.4 實踐 187 9.2 Python 簡介——為領悟而運行 197 9.2.1 引言 197 9.2.2 安裝 198 9.2.3 基本模組的程式設計 199 9.2.4 Numpy 模組 203 9.2.5 Pandas 模組 208 9.2.6 Matplotlib 模組 209 9.3 習題 211 第 10 章 附錄: 統計顯著性: 假設核對總和區間估計 10.1 引言 212 10.1.1 十字路口的統計學 212 10.1.2 內容選擇的困難 213 10.1.3 一個經典的例子 214 10.2 正態總體假定下關於均值的假設核對總和區間估計 215 10.2.1 通過例 10.1 理解關於正態均值µ 的顯著性檢驗的邏輯過程 215 10.2.2 對例 10.1 的顯著性檢驗過程的討論 218 10.2.3 通過例 10.1 理解關於正態均值µ 的置信區間的邏輯過程 219 10.2.4 置信區間和顯著性檢驗的等價性 220 10.2.5 正態總體的顯著性檢驗及置信區間的公式匯總 221 10.3 涉及 Bernoulli 試驗成功概率 p的顯著性檢驗及置信區間 223 10.4 非參數檢驗 224 10.4.1 關於非參數檢驗的一些常識 224 10.4.2 關於單樣本位置的符號檢驗 225 10.4.3 關於單樣本位置的 Wilcoxon 符號秩檢驗 226 10.4.4 關於隨機性的游程檢驗 227 10.4.5 比 較 兩 獨 立 總 體 中 位 數 的Wilcoxon (Mann-Whitney) 秩和檢驗 228 10.5 自助法抽樣檢驗簡介 229 10.6 本章的 Python 代碼 230 10.6.1 例 10.1 玉米成對高度差均值的t 檢驗及置信區間 230 10.6.2 例 10.2 關於比例的檢驗及置信區間 230 10.6.3 例 10.2.3 的符號檢驗 231 10.6.4 隨機游程檢驗: run1.txt 數據 231 10.6.5 隨機游程檢驗: 例 10.3 化妝品數據 231 10.6.6 比較兩獨立總體中位數的秩和檢驗: 例 10.4 GDP 數據 231 10.6.7 例 10.1 自助法抽樣檢驗 232 10.6.8 正態分佈的三個匯出分佈 232 10.7 參考資料 233 10.7.1 正態分佈的三個匯出分佈 233 10.7.2 統計量的一些變換 235 10.8 習題 236 參考文獻 239
吳喜之 本科就讀于北京大學數學力學系,美國北卡羅來那大學(Chapel Hill)統計系博士。在多所大學任教,曾經在國際國內專業雜誌上發表過五六十篇文章,並且為十本專著和教科書的作者。涉及的統計研究方向有:序貫分析及最優停時,回歸診斷,有錯抽樣檢查,模型選擇,縱向數據分析,穩健統計,偏最小二乘法,貝葉斯統計,經濟計量模型的非參數回歸,列聯表和分類數據等。
客服公告
热门活动
订阅电子报