预购商品
书目分类
特别推荐
本書著重介紹可以有效預測結果的兩類核心演算法,包括懲罰線性回歸方法和集成方法,然後通過一系列的示例細節來展示針對不同的問題如何使用這些方法。全書分為7章,主要講述演算法的選擇、構建預測模型時的要點等內容,並且結合Spark和Python技術,引入岩石與水雷、鮑魚年齡問題、紅酒口感、玻璃分類等經典資料集,將機器學習應用到資料預測分析中,説明讀者全面系統地掌握利用機器學習進行預測分析的基本過程,並將其應用到實際專案中。
第1章 做預測的兩類核心演算法1 1.1為什麼這兩類演算法如此有用1 1.2什麼是懲罰線性回歸方法5 1.3什麼是集成方法7 1.4演算法的選擇8 1.5構建預測模型的步驟10 1.5.1構造一個機器學習問題12 1.5.2特徵提取和特徵工程13 1.5.3確定訓練好的模型的性能14 1.6各章內容及其依賴關係14 1.7小結16 第2章 通過理解數據來瞭解問題17 2.1剖析一個新問題17 2.1.1屬性和標籤的不同類型決定模型的選擇19 2.1.2新數據集的注意事項20 2.2分類問題:用聲呐發現未的水雷21 2.2.1岩石與水雷數據集的物理特性21 2.2.2岩石與水雷數據集的統計概要24 2.2.3用分位數圖展示異常點26 2.2.4類別屬性的統計特徵28 2.2.5用Pythonpandas對岩石與水雷數據集進行統計分析28 2.3對岩石與水雷數據集屬性進行視覺化31 2.3.1用平行座標圖進行視覺化31 2.3.2對屬性和標籤間關係進行視覺化33 2.3.3用熱圖對屬性和標籤的相關性進行視覺化40 2.3.4對岩石與水雷數據集探究過程的小結41 2.4以因素變數進行實數值預測:鮑魚的年齡41 2.4.1回歸問題的平行座標圖——鮑魚年齡問題的屬性關係視覺化47 2.4.2將相關性熱圖用於回歸問題——鮑魚年齡問題的屬性對相關性的視覺化50 2.5用實數值屬性進行實數值預測:評估紅酒口感52 2.6多類別分類問題:玻璃分類59 2.7用PySpark理解大規模數據集63 2.8小結67 第3章 構建預測模型:平衡性能、複雜度和大數據69 3.1基本問題:理解函數逼近69 3.1.1使用訓練數據70 3.1.2評估預測模型的性能72 3.2影響演算法選擇及性能的因素——複雜度及數據72 3.2.1簡單問題和複雜問題的比較73 3.2.2簡單模型和複雜模型的比較75 3.2.3影響預測演算法性能的因素79 3.2.4選擇演算法:線性或者非線性79 3.3評測預測模型的性能80 3.3.1不同類型問題的性能評測80 3.3.2類比部署後模型的性能94 3.4模型與數據的均衡95 3.4.1通過權衡問題複雜度、模型複雜度和數據集規模來選擇模型96 3.4.2使用前向逐步回歸來控制過擬合97 3.4.3評估並理解預測模型102 3.4.4通過懲罰回歸系數來控制過擬合——嶺回歸104 3.5在超大規模數據集上用PySpark訓練懲罰回歸模型113 3.6小結116 第4章 懲罰線性回歸117 4.1為什麼懲罰線性回歸方法如此有用117 4.1.1模型訓練足夠快118 4.1.2有變數的重要性資訊118 4.1.3部署時評估足夠快118 4.1.4性能可靠118 4.1.5稀疏解119 4.1.6問題可能需要線性模型119 4.1.7使用集成方法的時機119 4.2懲罰線性回歸:對線性回歸進行正則化以獲得性能119 訓練線性模型:小化誤差等121 4.3求解懲罰線性回歸問題126 4.3.1理解小角度回歸及其與前向步進回歸的關係126 4.3.2使用Glmnet:快速且通用136 4.4將線性回歸擴展到分類問題141 4.4.1用懲罰回歸求解分類問題141 4.4.2多類別分類問題的求解145 4.4.3理解基擴展:用線性方法求解非線性問題145 4.4.4將非數值屬性引入線性方法147 4.5小結150 第5章 用懲罰線性回歸方法構建預測模型153 5.1懲罰線性回歸的Python包153 5.2多變數回歸:預測紅酒口感154 5.2.1構建並測試預測紅酒口感的模型155 5.2.2部署前在整個數據集上進行訓練158 5.3二元分類:用懲罰線性回歸探測未水雷165 5.4多類別分類:犯罪現場玻璃樣本分類184 5.5用PySpark實現線性回歸和分類187 5.6用PySpark預測紅酒口感188 5.7用PySpark實現邏輯斯蒂回歸:岩石與水雷193 5.8將類別變數引入PySpark模型:預測鮑魚年齡198 5.9具有元參數優化的多類別邏輯斯蒂回歸202 5.10小結205 第6章 集成方法207 6.1二元決策樹207 6.1.1如何用二元決策樹進行預測210 6.1.2如何訓練二元決策樹210 6.1.3決策樹的訓練等同於分割點的選擇213 6.1.4二元決策樹的過擬合217 6.1.5針對分類問題和類別特徵所做的修改220 6.2自舉彙聚:投票法221 6.2.1投票法如何工作221 6.2.2投票法小結232 6.3梯度提升法232 6.3.1梯度提升法的基本原理232 6.3.2獲取梯度提升法的性能236 6.3.3針對多變數問題的梯度提升法239 6.3.4梯度提升法小結243 6.4隨機森林法243 6.4.1隨機森林法:投票法加隨機屬性子集246 6.4.2影響隨機森林法性能的因素246 6.4.3隨機森林法小結248 6.5小結248 第7章 用Python構建集成模型251 7.1用Python集成方法包求解回歸問題251 7.1.1用梯度提升法預測紅酒口感251 7.1.2構建隨機森林模型預測紅酒口感257 7.2將非數值屬性引入Python集成模型265 7.2.1用Python將鮑魚性別屬性編碼引入梯度提升法265 7.2.2用梯度提升法評估性能和編碼變數的重要性267 7.2.3用Python將鮑魚性別屬性編碼引入隨機森林回歸269 7.2.4評估性能和編碼變數的重要性272 7.3用Python集成方法求解二元分類問題273 7.3.1用Python梯度提升法探測未水雷273 7.3.2測定梯度提升分類器的性能276 7.3.3用Python隨機森林法探測未水雷278 7.3.4構建隨機森林模型探測未水雷279 7.3.5測定隨機森林分類器的性能283 7.4用Python集成方法求解多類別分類問題285 7.4.1處理類別不均衡問題286 7.4.2用梯度提升法對玻璃進行分類286 7.4.3測定梯度提升模型在玻璃分類問題上的性能291 7.4.4用隨機森林法對玻璃進行分類292 7.4.5測定隨機森林模型在玻璃分類問題上的性能296 7.5用PySpark集成方法包求解回歸問題297 7.5.1用PySpark集成方法預測紅酒口感298 7.5.2用PySpark集成方法預測鮑魚年齡303 7.5.3用PySpark集成方法區分岩石與水雷308 7.5.4用PySpark集成方法識別玻璃類型312 7.6小結314
邁克爾·鮑爾斯(Michael Bowles) 在加利福尼亞大學伯克利分校、紐黑文大學和矽谷的駭客道場教授機器學習,為機器學習項目提供諮詢,還參與了半導體檢測、藥品設計、金融市場交易與優化等領域許多創業公司的創辦。他在麻省理工學院獲得助理教授職位之後,創辦並經營了兩家矽谷的創業公司,目前這兩家公司已上市。
客服公告
热门活动
订阅电子报