數據分析與預測算法：基於R語言






	購買中國簡體書籍請注意： 1. 因裝幀品質及貨運條件未臻完善，中國簡體書可能有出現磨痕、凹痕、折痕等問題，故簡體字館除封面破損、內頁脫落、缺頁等較嚴重的狀態外，其餘所有商品將正常出貨。


	目錄前言致謝第1章　R和RStudio入門1 1.1　為什麼是R1 1.2　R控制台2 1.3　腳本2 1.4　RStudio3 1.4.1　窗格3 1.4.2　按鍵綁定4 1.4.3　編輯腳本時運行命令5 1.4.4　更改全域選項7 1.5　安裝R包8 第一部分　R語言第2章　R基礎知識10 2.1　案例研究：美國槍殺人數10 2.2　非常基礎的知識11 2.2.1　對象11 2.2.2　工作區12 2.2.3　函數13 2.2.4　其他預構建物件14 2.2.5　變數名15 2.2.6　保存工作區15 2.2.7　啟發性腳本15 2.2.8　注釋代碼16 2.3　練習16 2.4　數據類型17 2.4.1　數據幀17 2.4.2　檢查物件17 2.4.3　訪問器：＄18 2.4.4　向量：數值型、字元型和邏輯型18 2.4.5　因數19 2.4.6　列表20 2.4.7　矩陣21 2.5　練習22 2.6　向量23 2.6.1　創建向量23 2.6.2　命名24 2.6.3　序列24 2.6.4　子集25 2.7　強制轉換25 2.8　練習26 2.9　排序27 2.9.1　sort27 2.9.2　order27 2.9.3　max和which.max28 2.9.4　rank29 2.9.5　注意迴圈使用29 2.10　練習29 2.11　向量運算30 2.11.1　重新縮放向量31 2.11.2　兩個向量31 2.12　練習32 2.13　索引32 2.13.1　邏輯子集32 2.13.2　邏輯運算子33 2.13.3　which33 2.13.4　match33 2.13.5　%in4 2.14　練習34 2.15　基本圖35 2.15.1　plot 35 2.15.2　hist35 2.15.3　boxplot36 2.15.4　image36 2.16　練習36 第3章　編程基礎38 3.1　條件運算式38 3.2　函數40 3.3　命名空間41 3.4　for迴圈42 3.5　向量化和泛函43 3.6　練習43 第4章　tidyverse45 4.1　tidy數據45 4.2　練習46 4.3　操作數據幀47 4.3.1　使用mutate添加列47 4.3.2　使用filter構造子集48 4.3.3　使用select選擇列 48 4.4　練習48 4.5　管道：%>P 4.6　練習51 4.7　匯總數據51 4.7.1　summarize52 4.7.2　pull53 4.7.3　group_by54 4.8　數據幀排序55 4.8.1　嵌套排序55 4.8.2　top_n56 4.9　練習56 4.10　tibble57 4.10.1　tibble展示效果更好58 4.10.2　tibble的子集仍是tibble58 4.10.3　tibble可以有複雜的條目59 4.10.4　tibble可以分組59 4.10.5　使用tibble代替data.frame59 4.11　點運算子60 4.12　do60 4.13　purrr包62 4.14　tidyverse條件63 4.14.1　case_when63 4.14.2　between63 4.15　練習64 第5章　導入數據65 5.1　路徑和工作目錄66 5.1.1　檔案系統66 5.1.2　相對路徑和完整路徑67 5.1.3　工作目錄67 5.1.4　生成路徑名67 5.1.5　使用路徑複製檔68 5.2　readr和readxl包68 5.2.1　readr68 5.2.2　readxl69 5.3　練習70 5.4　下載檔案70 5.5　R-base導入函數71 5.6　文本與二進位檔案72 5.7　Unicode與ASCII72 5.8　用試算表組織數據73 5.9　練習74 第二部分　數據視覺化第6章　數據視覺化導論76 第7章　ggplot280 7.1　圖的組件81 7.2　ggplot對象82 7.3　幾何圖形82 7.4　美學映射83 7.5　圖層集合84 7.6　全域與局部美學映射85 7.7　尺度86 7.8　標籤和標題86 7.9　類別的顏色87 7.10　注釋、形狀和調整88 7.11　附加組件包89 7.12　綜合90 7.13　用qplot快速繪圖91 7.14　繪圖網格91 7.15　練習92 第8章　視覺化數據分佈94 8.1　變數類型94 8.2　案例研究：描述學生的身高95 8.3　分佈函數95 8.4　累積分佈函數96 8.5　長條圖97 8.6　平滑密度圖97 8.6.1　解讀y軸100 8.6.2　密度容許分層100 8.7　練習101 8.8　正態分佈103 8.9　標準單位104 8.10　分位數圖105 8.11　百分位數106 8.12　箱線圖107 8.13　分層法108 8.14　案例研究：描述學生的身高（續）108 8.15　練習109 8.16　ggplot2幾何圖形111 8.16.1　橫條圖111 8.16.2　長條圖112 8.16.3　密度圖113 8.16.4　箱線圖113 8.16.5　QQ圖114 8.16.6　圖像114 8.16.7　快速繪圖115 8.17　練習116 第9章　實踐中的數據視覺化118 9.1　案例研究：對貧困的新見解118 9.2　散點圖120 9.3　分面121 9.3.1　facet_wrap 123 9.3.2　採用固定尺度以更好地進行比較123 9.4　時間序列圖124 9.5　數據轉換127 9.5.1　對數轉換127 9.5.2　使用哪一個底數128 9.5.3　轉換值還是標記尺度129 9.6　視覺化多峰分佈130 9.7　用箱線圖和脊線圖比較多種分佈130 9.7.1　箱線圖131 9.7.2　脊線圖132 9.7.3　示例：1970年和2010年的收入分佈134 9.7.4　訪問計算變數139 9.7.5　加權密度142 9.8　生態謬誤和顯示數據的重要性143 9.8.1　邏輯轉換143 9.8.2　顯示數據144 第10章　數據視覺化原則145 10.1　使用視覺線索編碼數據145 10.2　知道什麼時候包含0148 10.3　不要扭曲數量150 10.4　按有意義的值對類別排序150 10.5　顯示數據152 10.6　簡單的比較153 10.6.1　使用公共的軸153 10.6.2　垂直對齊圖可以看到水準變化，水準對齊圖可以看到垂直變化154 10.6.3　考慮數據轉換155 10.6.4　比較相鄰視覺線索157 10.6.5　使用顏色157 10.7　考慮色盲158 10.8　兩個變數的圖158 10.8.1　斜率圖158 10.8.2　Bland-Altman圖159 10.9　編碼第三個變數160 10.10　避免擬三維圖161 10.11　避免使用過多有效數字162 10.12　瞭解你的讀者163 10.13　練習164 10.14　案例研究：疫苗和傳染病167 10.15　練習170 第11章　魯棒的匯總171 11.1　離群值171 11.2　中值172 11.3　四分位距172 11.4　Tukey對離群值的定義173 11.5　絕對中位差173 11.6　練習174 11.7　案例研究：學生報告的身高175 第三部分　R語言統計學第12章　R語言統計學導論178 第13章　概率179 13.1　離散概率179 13.1.1　相對頻率179 13.1.2　符號180 13.1.3　概率分佈180 13.2　分類數據的蒙特卡羅模擬180 13.2.1　設置隨機種子181 13.2.2　有無放回182 13.3　獨立性182 13.4　條件概率183 13.5　加法和乘法法則183 13.5.1　乘法法則183 13.5.2　獨立條件下的乘法法則184 13.5.3　加法法則184 13.6　排列組合184 13.7　示例188 13.7.1　蒙提·霍爾問題188 13.7.2　生日問題189 13.8　無限實驗191 13.9　練習191 13.10　連續概率193 13.11　理論連續分佈194 13.11.1　近似理論分佈194 13.11.2　概率密度195 13.12　連續變數的蒙特卡羅模擬196 13.13　連續分佈197 13.14　練習197 第14章　隨機變數199 14.1　生成隨機變數199 14.2　抽樣模型200 14.3　隨機變數的概率分佈201 14.4　分佈與概率分佈202 14.5　隨機變數符號203 14.6　期望值和標準誤差203 14.7　中心極限定理205 14.8　平均值統計特性206 14.9　大數定律208 14.10　練習208 14.11　案例研究：大空頭209 14.11.1　利率解釋與機會模型209 14.11.2　大空頭212 14.12　練習215 第15章　統計推斷216 15.1　民意調查216 15.2　總體、樣本、參數和估計218 15.2.1　樣本平均值219 15.2.2　參數220 15.2.3　民意調查與預測220 15.2.4　估計值的性質：期望值和標準誤差220 15.3　練習221 15.4　實踐中的中心極限定理222 15.4.1　蒙特卡羅模擬224 15.4.2　差值225 15.4.3　偏差：為什麼不進行一次大規模的民意調查呢225 15.5　練習226 15.6　置信區間227 15.6.1　蒙特卡羅模擬229 15.6.2　正確的語言230 15.7　練習231 15.8　冪232 15.9　p值232 15.10　聯合檢驗233 15.10.1　女士品茶234 15.10.2　二乘二表234 15.10.3　卡方檢驗235 15.10.4　比值比236 15.10.5　比值比的置信區間237 15.10.6　小計數校正237 15.10.7　樣本大，p值小238 15.11　練習238 第16章　統計模型239 16.1　民意調查聚合器240 16.1.1　民意調查數據242 16.1.2　民意調查機構偏差243 16.2　數據驅動模型244 16.3　練習245 16.4　貝葉斯統計248 16.5　貝葉斯定理模擬249 16.6　層次模型251 16.7　練習253 16.8　案例研究：選舉預測255 16.8.1　貝葉斯方法255 16.8.2　一般偏差256 16.8.3　模型的數學表示256 16.8.4　預測選舉團259 16.8.5　預測263 16.9　練習264 16.10　t分佈266 第17章　回歸268 17.1　案例研究：身高是遺傳的嗎268 17.2　相關係數269 17.2.1　樣本相關係數是一個隨機變數271 17.2.2　相關係數並不總是有用272 17.3　條件期望272 17.4　回歸線274 17.4.1　回歸提高精度275 17.4.2　二元正態分佈（高級）276 17.4.3　可釋方差278 17.4.4　警告：有兩條回歸線278 17.5　練習279 第18章　線性模型280 18.1　案例研究：《點球成金》280 18.1.1　棒球統計學281 18.1.2　棒球基礎知識282 18.1.3　投球上壘無獎283 18.1.4　投球上壘還是盜壘284 18.1.5　應用於棒球統計的回歸285 18.2　混雜因素287 18.2.1　通過分層理解混雜因素288 18.2.2　多元回歸291 18.3　最小二乘估計291 18.3.1　解釋線性模型292 18.3.2　最小二乘估計292 18.3.3　lm函數293 18.3.4　LSE是隨機變數294 18.3.5　預測值是隨機變數295 18.4　練習296 18.5　tidyverse中的線性回歸297 18.6　練習301 18.7　案例研究：《點球成金》（續）302 18.7.1　添加薪水和位置資訊304 18.7.2　選擇9名球員306 18.8　回歸謬論307 18.9　測量誤差模型308 18.10　練習310 第19章　關聯關係並非因果關係312 19.1　偽相關312 19.2　離群值314 19.3　顛倒因果315 19.4　混雜因素316 19.4.1　示例：加州大學伯克利分校的招生316 19.4.2　混雜解釋圖形317 19.4.3　分層後的平均值318 19.5　辛普森悖論319 19.6　練習319 第四部分　數據整理第20章　數據整理導論322 第21章　重塑數據323 21.1　gather函數323 21.2　spread函數324 21.3　separate函數325 21.4　unite函數327 21.5　練習328 第22章　連接表330 22.1　連接331 22.1.1　左連接332 22.1.2　右連接332 22.1.3　內部連接333 22.1.4　全連接333 22.1.5　半連接333 22.1.6　反連接333 22.2　綁定334 22.2.1　按列綁定334 22.2.2　按行綁定335 22.3　集合運算子335 22.3.1　intersect函數335 22.3.2　union函數335 22.3.3　setdiff函數336 22.3.4　setequal函數336 22.4　練習337 第23章　網頁抓取338 23.1　HTML339 23.2　rvest包340 23.3　CSS選擇器342 23.4　JSON342 23.5　練習344 第24章　字串處理346 24.1　stringr包347 24.2　案例研究：美國槍殺數據348 24.3　案例研究：學生報告的身高349 24.4　定義字串時如何轉義351 24.5　規則運算式353 24.5.1　字串是規則運算式353 24.5.2　特殊字元353 24.5.3　字元類354 24.5.4　錨點355 24.5.5　量詞356 24.5.6　空格357 24.5.7　量詞*、和+357 24.5.8　非檢測元素358 24.5.9　組358 24.6　使用規則運算式搜索並替換359 24.7　測試和改進361 24.8　修剪364 24.9　更改字母大小寫364 24.10　案例研究：學生報告的身高（續）365 24.10.1　extract函數365 24.10.2　整合366 24.11　字串拆分367 24.12　案例研究：從PDF中提取表369 24.13　重新編碼372 24.14　練習373 第25章　解析日期和時間376 25.1　日期數據類型376 25.2　lubridate包377 25.3　練習380 第26章　文本挖掘381 26.1　案例研究：特朗普推文381 26.2　文本作為數據383 26.3　情感分析388 26.4　練習392 第五部分　機器學習第27章　機器學習導論394 27.1　概念394 27.2　示例396 27.3　練習397 27.4　評價標準397 27.4.1　訓練集和測試集398 27.4.2　總體準確度398 27.4.3　混淆矩陣400 27.4.4　靈敏度和特異性401 27.4.5　平衡準確度和評分402 27.4.6　類別主導優勢在實踐中的重要性404 27.4.7　ROC和精度-召回率曲線404 27.4.8　損失函數406 27.5　練習407 27.6　條件概率和期望407 27.6.1　條件概率408 27.6.2　條件期望409 27.6.3　條件期望使平方損失函數最小409 27.7　練習410 27.8　案例研究：是2還是7410 第28章　平滑化413 28.1　箱平滑化414 28.2　核函數416 28.3　局部加權回歸418 28.3.1　抛物線擬合421 28.3.2　注意默認平滑化參數422 28.4　平滑化和機器學習的聯繫423 28.5　練習423 第29章　交叉驗證425 29.1　k最近鄰法的動機425 29.1.1　過度訓練427 29.1.2　過度平滑化428 29.1.3　挑選kNN中的k429 29.2　交叉驗證的數學描述430 29.3　K折交叉驗證431 29.4　練習433 29.5　自舉法434 29.6　練習436 第30章　caret包438 30.1　caret的train函數438 30.2　執行交叉驗證439 30.3　示例：使用局部加權回歸進行擬合441 第31章　演算法示例443 31.1　線性回歸443 31.2　練習445 31.3　邏輯回歸446 31.3.1　廣義線性模型448 31.3.2　有不止一個預測因素的邏輯回歸450 31.4　練習451 31.5　k最近鄰法451 31.6　練習452 31.7　生成模型453 31.7.1　樸素貝葉斯模型453 31.7.2　控制類別主導優勢454 31.7.3　二次判別分析455 31.7.4　線性判別分析458 31.7.5　與距離的聯繫458 31.8　案例研究：類別的數量大於3459 31.9　練習461 31.10　分類回歸樹462 31.10.1　維數災難462 31.10.2　CART動機463 31.10.3　回歸樹465 31.10.4　分類樹469 31.11　隨機森林470 31.12　練習474 第32章　機器學習實踐476 32.1　預處理477 32.2　k最近鄰法和隨機森林478 32.3　變數重要性480 32.4　視覺評價480 32.5　集成模型481 32.6　練習481 第33章　大型數據集483 33.1　矩陣代數483 33.1.1　符號484 33.1.2　將向量轉化為矩陣486 33.1.3　行匯總和列匯總487 33.1.4　apply487 33.1.5　根據匯總量對列進行過濾488 33.1.6　矩陣索引489 33.1.7　數據的二值化490 33.1.8　矩陣的向量化490 33.1.9　矩陣代數運算490 33.2　練習491 33.3　距離491 33.3.1　歐氏距離491 33.3.2　高維空間中的距離492 33.3.3　歐氏距離舉例492 33.3.4　預測因素空間494 33.3.5　預測因素之間的距離494 33.4　練習494 33.5　維數縮減495 33.5.1　距離的保持495 33.5.2　線性變換（進階）497 33.5.3　正交變換（進階）498 33.5.4　主成分分析499 33.5.5　鳶尾花示例501 33.5.6　MNIST 示例503 33.6　練習505 33.7　推薦系統505 33.7.1　movielens 數據505 33.7.2　推薦系統是一個機器學習挑戰507 33.7.3　損失函數507 33.7.4　第一個模型508 33.7.5　電影效應建模508 33.7.6　用戶效應509 33.8　練習510 33.9　正則化511 33.9.1　動機511 33.9.2　補償最小二乘法513 33.9.3　懲罰項的選擇515 33.10　練習517 33.11　矩陣分解518 33.11.1　因數分析520 33.11.2　連接SVD和PCA523 33.12　練習525 第34章　聚類529 34.1　分層聚類530 34.2　k均值聚類531 34.3　熱點圖531 34.4　特徵過濾532 34.5　練習532 第六部分　生產力工具第35章　生產力工具導論534 第36章　使用UNIX進行組織536 36.1　命名約定536 36.2　終端537 36.3　檔案系統537 36.3.1　目錄和子目錄538 36.3.2　主目錄538 36.3.3　工作目錄540 36.3.4　路徑540 36.4　UNIX命令541 36.4.1　ls：列出目錄內容541 36.4.2　mkdir和rmdir：目錄的創建和刪除541 36.4.3　cd：通過更改目錄來流覽檔案系統542 36.5　示例543 36.6　其他UNIX命令545 36.6.1　mv：移動文件545 36.6.2　cp：複製檔545 36.6.3　rm：移除文件546 36.6.4　less：查看文件546 36.7　為數據科學專案做準備546 36.8　UNIX的進階內容547 36.8.1　參數547 36.8.2　獲取幫助548 36.8.3　管道548 36.8.4　萬用字元549 36.8.5　環境變數549 36.8.6　框架550 36.8.7　可執行檔550 36.8.8　許可權和檔案類型551 36.8.9　應該掌握的命令551 36.8.10　R中的文件管理551 第37章　Git和GitHub552 37.1　為什麼要使用Git和GitHub552 37.2　GitHub帳戶553 37.3　GitHub庫554 37.4　Git概述556 37.5　初始化Git目錄559 37.6　在RStudio中使用Git和 GitHub561 第38章　使用RStudio和R markdown的可複現項目565 38.1　RStudio項目565 38.2　R markdown569 38.2.1　標頭檔570 38.2.2　R代碼塊570 38.2.3　全域選項571 38.2.4　knitr571 38.2.5　更多有關R markdown的內容572 38.3　組織數據科學專案572 38.3.1　在UNIX中創建目錄572 38.3.2　創建RStudio項目573 38.3.3　編輯R腳本574 38.3.4　用UNIX創建更多的目錄575 38.3.5　添加README文件575 38.3.6　初始化Git目錄575 38.3.7　用RStudio進行檔的添加、提交和推送576