预购商品
书目分类
特别推荐
第1章 大數據技術概述1 1.1大數據的基本概念1 1.1.1大數據的定義1 1.1.2大數據的特徵1 1.1.3大數據思維2 1.2代表性大數據技術3 1.2.1Hadoop3 1.2.2Spark5 1.2.3Flink5 1.3大數據程式設計語言5 1.4線上資源5 1.5拓展閱讀——三次資訊化浪潮的啟示6 1.6習題6 第2章 Spark大數據處理框架7 2.1Spark概述7 2.1.1Spark的產生背景7 2.1.2Spark的優點8 2.1.3Spark的應用場景9 2.1.4Spark的生態系統9 2.2Spark運行機制10 2.2.1Spark基本概念10 2.2.2Spark運行架構12 2.3在VirtualBox上安裝Linux集群13 2.3.1Master節點的安裝13 2.3.2虛擬機器克隆安裝Slave1節點22 2.4Hadoop安裝前的準備工作26 2.4.1創建hadoop用戶和更新APT262.4.2安裝SSH、配置SSH無密碼登錄27 2.4.3安裝Java環境28 2.4.4Linux系統下Scala版本的Eclipse的安裝與配置29 2.4.5Eclipse環境下Java程式開發實例30 2.5Hadoop的安裝與配置32 2.5.1下載Hadoop安裝檔32 2.5.2Hadoop單機模式配置33 2.5.3Hadoop偽分散式模式配置35 2.5.4Hadoop分散式模式配置40 2.6Spark的安裝與配置49 2.6.1下載Spark安裝檔49 2.6.2單機模式配置50 2.6.3偽分散式模式配置51 2.7使用PySpark編寫Python代碼54 2.8安裝pip工具和常用的數據分析庫55 2.9安裝Anaconda和配置Jupyter Notebook55 2.9.1安裝Anaconda55 2.9.2配置Jupyter Notebook57 2.9.3運行Jupyter Notebook58 2.9.4配置Jupyter Notebook實現和PySpark交互59 2.9.5為Anaconda安裝擴展庫61 2.10拓展閱讀——Spark誕生的啟示62 2.11習題62 〖3〗Spark大數據分析技術(Python版·微課版)目錄〖3〗 第3章 Spark RDD程式設計63 3.1RDD的創建方式63 3.1.1使用程式中的數據集創建RDD63 3.1.2使用文字檔創建RDD65 3.1.3使用JSON檔創建RDD67 3.1.4使用CSV檔創建RDD69 3.2RDD轉換操作69 3.2.1映射操作70 3.2.2去重操作72 3.2.3排序操作73 3.2.4分組聚合操作75 3.2.5集合操作78 3.2.6抽樣操作79 3.2.7連接操作80 3.2.8打包操作81 3.2.9獲取鍵值對RDD的鍵和值集合81 3.2.10重新分區操作81 3.3RDD行動操作83 3.3.1統計操作84 3.3.2取數據操作85 3.3.3聚合操作86 3.3.4反覆運算操作87 3.3.5存儲操作88 3.4RDD之間的依賴關係89 3.4.1窄依賴89 3.4.2寬依賴89 3.5RDD的持久化90 3.6案例實戰: 利用Spark RDD實現詞頻統計91 3.7實驗1: RDD程式設計實驗92 3.8拓展閱讀——中國女排精神94 3.9習題95 第4章 Spark SQL結構化數據處理96 4.1Spark SQL96 4.1.1Spark SQL簡介96 4.1.2DataFrame與Dataset96 4.2創建DataFrame物件的方法97 4.2.1使用Parquet檔創建DataFrame物件97 4.2.2使用JSON檔創建DataFrame物件98 4.2.3使用SparkSession方式創建DataFrame物件99 4.3將DataFrame物件保存為不同格式的檔104 4.3.1通過write.xxx()方法保存DataFrame物件104 4.3.2通過write.format()方法保存DataFrame物件105 4.3.3將DataFrame物件轉化成RDD保存到文件中105 4.4DataFrame的常用操作105 4.4.1行類操作105 4.4.2列類操作106 4.4.3DataFrame的常用屬性109 4.4.4輸出110 4.4.5篩選112 4.4.6排序116 4.4.7匯總與聚合117 4.4.8統計119 4.4.9合併120 4.4.10連接120 4.4.11to系列轉換123 4.5讀寫MySQL數據庫124 4.5.1安裝並配置MySQL124 4.5.2讀取MySQL數據庫中的數據126 4.5.3向MySQL數據庫寫入數據127 4.6實驗2: Spark SQL程式設計實驗128 4.7拓展閱讀——中國晶片之路130 4.8習題131 第5章 HBase分散式數據庫132 5.1HBase概述132 5.1.1HBase的技術特點132 5.1.2HBase與傳統關係數據庫的區別132 5.1.3HBase與Hadoop中其他組件的關係133 5.2HBase系統架構和數據訪問流程134 5.2.1HBase系統架構134 5.2.2HBase數據訪問流程136 5.3HBase數據表139 5.3.1HBase數據表邏輯視圖139 5.3.2HBase數據表物理視圖141 5.3.3HBase數據表面向列的存儲142 5.3.4HBase數據表的查詢方式143 5.3.5HBase表結構設計143 5.4HBase的安裝144 5.4.1下載安裝檔144 5.4.2配置環境變數144 5.4.3添加用戶許可權145 5.4.4查看HBase版本資訊145 5.5HBase的配置145 5.5.1單機模式配置146 5.5.2偽分散式模式配置147 5.6HBase的Shell操作150 5.6.1基本操作150 5.6.2創建表151 5.6.3插入與更新表中的數據153 5.6.4查看表中的數據154 5.6.5刪除表中的數據156 5.6.6表的啟用/禁用156 5.6.7修改表結構157 5.6.8刪除HBase表158 5.7HBase的Java API操作158 5.7.1HBase數據庫管理API158 5.7.2HBase數據庫表API159 5.7.3HBase數據庫表行列API161 5.8HBase案例實戰163 5.8.1在Eclipse中創建工程163 5.8.2添加項目用到的JAR包164 5.8.3編寫Java應用程式165 5.8.4編譯運行程式168 5.9利用Python操作HBase169 5.9.1HappyBase的安裝169 5.9.2Connection類169 5.9.3Table類170 5.10拓展閱讀——HBase存儲策略的啟示171 5.11習題171 第6章 Spark Streaming流計算172 6.1流計算概述172 6.1.1流數據172 6.1.2流計算處理流程172 6.2Spark Streaming工作原理173 6.3Spark Streaming程式設計模型174 6.3.1編寫Spark Streaming程式的步驟174 6.3.2創建StreamingContext對象174 6.4創建DStream175 6.4.1創建輸入源為檔流的DStream物件175 6.4.2定義DStream的輸入數據源為通訊端流178 6.4.3定義DStream的輸入數據源為RDD佇列流182 6.5DStream操作183 6.5.1DStream無狀態轉換操作183 6.5.2DStream有狀態轉換操作187 6.5.3DStream輸出操作189 6.6拓展閱讀——Spark Streaming流處理過程的啟示190 6.7習題190 第7章 Spark MLlib機器學習191 7.1MLlib概述191 7.1.1機器學習191 7.1.2PySpark機器學習庫193 7.2MLlib基本數據類型193 7.2.1本地向量193 7.2.2帶標籤的點195 7.2.3本地矩陣196 7.3機器學習流水線198 7.3.1轉換器198 7.3.2評估器198 7.3.3流水線199 7.4基本統計201 7.4.1匯總統計201 7.4.2相關分析203 7.4.3分層抽樣205 7.4.4生成隨機數206 7.4.5核密度估計206 7.5特徵提取、轉換和選擇207 7.5.1特徵提取207 7.5.2特徵轉換210 7.5.3特徵選擇215 7.6分類演算法217 7.6.1邏輯二分類回歸分析218 7.6.2決策樹分類222 7.7回歸演算法225 7.7.1迴圈發電場數據的多元線性回歸分析225 7.7.2回歸決策樹229 7.7.3梯度提升回歸樹230 7.8聚類演算法231 7.8.1聚類概述231 7.8.2k均值聚類演算法232 7.9協同過濾推薦演算法235 7.9.1協同過濾推薦的原理235 7.9.2交替最小二乘協同過濾推薦演算法236 7.10實驗3: Spark機器學習實驗239 7.11拓展閱讀——工匠精神240 7.12習題241 第8章 數據視覺化242 8.1WordCloud242 8.2PyeCharts247 8.2.1繪製柱狀圖248 8.2.2繪製折線圖250 8.2.3繪製圓形圖252 8.2.4繪製雷達圖252 8.2.5繪製漏斗圖253 8.2.6繪製3D柱狀圖254 8.2.7繪製詞雲圖255 8.3Plotly256 8.3.1繪製折線圖256 8.3.2繪製柱狀圖257 8.3.3繪製圓形圖259 8.4拓展閱讀——文化自信260 8.5習題260 參考文獻261
客服公告
热门活动
订阅电子报