從大數據到人工智慧：理論及Spark實作


	本書圍繞網際網路重大的技術革命：雲端運算、大數據進行說明。　　本書重點在大數據與雲端運算的融合，列出大數據與雲端運算的一些基　　本概念的同時，以Spark 為開發工具，全面說明雲環境下的大數據技術　　部署與典型案例演算法實現，最後介紹經典Spark 大數據與雲端運算融合的架構與演算法。　　　　適用：雲端運算環境下Spark大數據技術人員、Spark MLlib機器學習技術人員。


	目錄 01 大數據處理概述 ► 1.1 大數據處理技術概述 1.2 資料採擷及其相關領域應用 1.3 大數據應用 1.4 平行計算簡介 1.5 Hadoop 介紹 1.6 本章小結 02 雲端運算時代 ► 2.1 雲端運算概述 2.2 雲端運算發展動力源泉 2.3 雲端運算技術分析 2.4 平行計算與雲端運算關係 2.5 雲端運算發展優勢 2.6 實雲端現遷移 2.7 本章小結 03 大數據與雲端運算關係 ► 3.1 雲端運算與大數據關係 3.2 大數據與雲端運算的融合是認識世界的新工具 3.3 大數據隱私保護是大數據雲端快速發展和運用的重要前提 3.4 大數據成就雲端運算價值 3.5 資料向雲端運算移轉 3.6 大數據清洗 3.7 雲端運算時代的資料整合技術 3.8 雲端推薦 3.9 本章小結 04 Spark 大數據處理基礎 ► 4.1 Spark 大數據處理技術 4.2 Spark 2.0.0 安裝設定 4.3 Spark 設定 4.4 Spark 模式部署概述 4.5 Spark Streaming 即時計算架構 4.6 Spark SQL 查詢、DataFrames 分散式資料集和Datasets API 4.7 Spark 起始點 4.8 Spark 資料來源 4.9 Spark 效能最佳化 4.10 分散式SQL 引擎 4.11 本章小結 05 Spark MLlib 機器學習演算法實現 ► 5.1 Spark MLlib 基礎 5.2 Spark MLlib 矩陣向量 5.3 Spark MLlib 線性回歸演算法 5.4 Spark MLlib 邏輯回歸演算法 5.5 Spark MLlib 單純貝氏分類演算法 5.6 Spark MLlib 決策樹演算法 5.7 Spark MLlib KMeans 分群演算法 5.8 Spark MLlib FPGrowth 連結規則演算法 5.9 Spark MLlib 協作過濾推薦演算法 5.10 Spark MLlib 神經網路演算法 5.11 本章小結 06 Spark 大數據架構系統部署 ► 6.1 大數據架構介紹 6.2 典型的商務使用場景 6.3 Spark 三種分散式部署模式 6.4 建立大數據架構 6.5 Spark 單一機器叢集部署 6.6 本章小結 07 Spark 大數據處理案例分析 7.1 Spark on Amazon EMR 7.2 Spark 在AWSKrux 的應用 7.3 Spark 在商業網站中的應用 7.4 Spark 在Yahoo! 的應用 7.5 Spark 在Amazon EC2 上執行 7.6 淘寶應用Spark on YARN 架構 7.7 騰訊雲大數據解決方案 7.8 雅虎開放原始碼TensorFlowOnSpark 7.9 阿里雲E-MapReduce 7.10 SequoiaDB+Spark 打造一體化大數據平台 7.11 本章小結 08 大數據發展展望 ► 8.1 大數據未來發展趨勢 8.2 大數據給人類帶來的認知衝擊 8.3 未來大數據研究突破的技術問題 8.4 本章小結 A Spark MLlib 神經網路演算法 B 參考文獻