预购商品
书目分类
特别推荐
全書分為4篇,共9章,第一篇講解Spark SQL 發展歷史和開發環境搭建。第二篇講解Spark SQL 實例,幫助讀者掌握Spark SQL的入門操作,瞭解Spark RDD、DataFrame和DataSet,並熟悉 DataFrame 各種操作。第三篇講解基於WiFi探針的商業大數據分析專案,實例中包含資料獲取、預處理、存儲、利用Spark SQL 挖掘資料,一步步帶領讀者學習Spark SQL強大的資料採擷功能。第四篇講解Spark SQL 最佳化的知識。 適用:Spark初學者、Spark資料分析人員以及Spark程式開發人員,也可作為大專院校和培訓機構等相關專業的師生教學參考。 本書特色 Spark SQL是 Spark大數據框架的一部分,支援使用標準SQL查詢和HiveQL來讀寫資料,可用於結構化資料處理,並可以執行類似SQL的Spark資料查詢,有助於開發人員更快地建置和執行Spark程式。
第一部分 入門篇 1初識Spark SQL 1.1 Spark SQL的前世今生 1.2 Spark SQL能做什麼 2 Spark安裝、程式設計環境架設以及包裝傳送 2.1 Spark的簡易安裝 2.2 準備撰寫Spark應用程式的IDEA環境 2.3 將撰寫好的Spark應用程式套件裝成jar傳送到Spark上 第二部分 基礎篇 3 Spark上的RDD程式設計 3.1 RDD基礎 3.2 RDD簡單實例—wordcount 3.3 建立RDD 3.4 RDD操作 3.5 向Spark傳遞函數 3.6 常見的轉化操作和行動操作 3.7 深入了解RDD 3.8 RDD 快取、持久化 3.9 RDD checkpoint容錯機制 4 Spark SQL程式設計入門 4.1 Spark SQL概述 4.2 Spark SQL程式設計入門範例 5 Spark SQL的DataFrame操作大全 5.1 由JSON檔案產生所需的DataFrame物件 5.2 DataFrame上的行動操作 5.3 DataFrame上的轉化操作 6 Spark SQL支援的多種資料來源 6.1 概述 6.2 典型結構化資料來源 第三部分 實作篇 7 Spark SQL 工程實戰之以WiFi探針為基礎的商業大數據分析技術 7.1 功能需求 7.2 系統架構 7.3 功能設計 7.4 資料庫結構 7.5 本章小結 8 第一個Spark SQL應用程式 8.1 完全分散式環境架設 8.2 資料清洗 8.3 資料處理流程 8.4 Spark程式遠端偵錯 8.5 Spark的Web介面 8.6 本章小結 第四部分 最佳化篇 9 讓Spark程式再快一點 9.1 Spark執行流程 9.2 Spark記憶體簡介 9.3 Spark的一些概念 9.4 Spark程式設計四大守則 9.5 Spark最佳化七式 9.6 解決資料傾斜問題 9.7 Spark 執行引擎Tungsten 簡介 9.8 Spark SQL解析引擎Catalyst 簡介 9.9 本章小結
作者簡介 紀涵 資料採擷、雲計算愛好者,曾負責多個中小型網站的開發維護工作,參與開發設計多款面向校園服務的App,與多個基於Hadoop、Spark平台的大數據應用,現主要研究方向為機器學習、資料採擷。
最近浏览商品
客服公告
热门活动
订阅电子报