预购商品
书目分类
特别推荐
前言 第一部分基礎篇 第1章淺談大數據2 1.1大資料產生的背景2 1.1.1資訊化浪潮2 1.1.2資訊技術變革3 1.1.3數據生產方式變革4 1.1.4大資料的發展歷程5 1.1.5大數據時代的挑戰6 1.1.6大數據時代面臨的機遇7 1.2大數據概述7 1.2.1大資料的概念8 1.2.2大資料的特徵8 1.2.3大資料的影響8 1.2.4大資料與互聯網、雲計算的關係11 1.3大資料採擷概述11 1.3.1資料採擷的概念11 1.3.2大資料環境下的資料採擷12 1.3.3資料採擷的過程12 1.3.4資料採擷常用工具13 1.4大資料平臺14 1.5小結15 第2章大資料基礎架構Hadoop——實現大資料分散式存儲與計算16 2.1Hadoop技術概述16 2.1.1Hadoop的發展歷史16 2.1.2Hadoop的特點17 2.1.3Hadoop存儲框架—HDFS18 2.1.4Hadoop計算引擎—MapReduce20 2.1.5Hadoop資源管理器—YARN21 2.2Hadoop應用場景介紹23 2.3Hadoop生態系統23 2.4Hadoop安裝配置24 2.4.1創建Linux虛擬機器25 2.4.2設置固定IP33 2.4.3遠端連接虛擬機器35 2.4.4配置本地yum源及安裝常用軟體38 2.4.5在Linux下安裝Java42 2.4.6修改設定檔43 2.4.7克隆虛擬機器48 2.4.8配置SSH免密登錄50 2.4.9配置時間同步服務51 2.4.10啟動關閉集群53 2.5HadoopHDFS文件操作命令54 2.5.1創建目錄54 2.5.2上傳和下載檔案55 2.5.3查看檔內容56 2.5.4刪除檔或目錄56 2.6HadoopMapReduce程式設計開發57 2.6.1使用IDEA搭建MapReduce開發環境57 2.6.2通過詞頻統計瞭解MapReduce執行流程67 2.6.3通過源碼認識MapReduce程式設計68 2.7場景應用:電影網站用戶影評分析74 2.7.1瞭解資料欄位並分析需求74 2.7.2多維度分析用戶影評76 2.8小結91 第3章資料倉庫Hive——實現大資料查詢與處理92 3.1Hive技術概述92 3.1.1Hive簡介92 3.1.2Hive的特點93 3.1.3Hive的架構93 3.2Hive應用場景介紹94 3.3Hive安裝配置95 3.3.1配置MySQL資料庫95 3.3.2配置Hive資料倉庫96 3.4HiveQL查詢語句99 3.4.1Hive的基礎資料類型99 3.4.2創建與管理資料庫100 3.4.3創建與管理資料表101 3.4.4Hive表的數據裝載108 3.4.5掌握select查詢111 3.4.6瞭解運算子的使用112 3.4.7掌握Hive內置函數115 3.5Hive自訂函數的使用120 3.5.1瞭解Hive自訂函數120 3.5.2自訂UDF121 3.5.3自訂UDAF124 3.5.4自訂UDTF127 3.6場景應用:基站掉話率排名統計129 3.6.1創建基站資料表並導入資料130 3.6.2統計基站掉話率130 3.7小結132 第4章分散式協調框架ZooKeeper——實現應用程式分散式協調服務133 4.1ZooKeeper技術概述133 4.1.1ZooKeeper簡介133 4.1.2ZooKeeper的特點135 4.2ZooKeeper應用場景介紹135 4.3ZooKeeper分散式安裝配置136 4.4ZooKeeper用戶端常用命令138 4.4.1創建znode138 4.4.2獲取znode資料138 4.4.3監視znode139 4.4.4刪除znode140 4.4.5設置znode許可權140 4.5ZooKeeperJavaAPI操作142 4.5.1創建IDEA工程並連接ZooKeeper142 4.5.2獲取、修改和刪除znode資料143 4.6場景應用:伺服器上下線動態監控146 4.7小結149 第5章分散式資料庫HBase——實現大資料存儲與快速查詢151 5.1HBase技術概述151 5.1.1HBase的發展歷程151 5.1.2HBase的特點152 5.1.3HBase的核心功能模組153 5.1.4HBase的資料模型155 5.1.5設計表結構的原則155 5.2HBase應用場景介紹156 5.3HBase安裝配置157 5.4HBaseShell操作159 5.4.1創建與刪除表159 5.4.2插入資料161 5.4.3查詢資料162 5.4.4刪除資料163 5.4.5掃描全表163 5.4.6按時間版本查詢記錄164 5.5HBase高級應用165 5.5.1IDEA開發環境搭建165 5.5.2HBaseJavaAPI使用169 5.5.3HBase與MapReduce交互174 5.6場景應用:使用者通話記錄資料存儲設計及查詢180 5.6.1設計通話記錄資料結構180 5.6.2查詢使用者通話記錄181 5.7小結187 第6章分散式運算框架Spark——實現大資料分析與挖掘189 6.1Spark技術概述189 6.1.1Spark的發展歷史189 6.1.2Spark的特點190 6.1.3Spark生態圈191 6.2Spark應用場景介紹192 6.3Spark集群安裝配置192 6.4SparkCore—底層基礎框架196 6.4.1Spark集群架構196 6.4.2Spark作業運行模式197 6.4.3彈性分散式資料集RDD199 6.4.4RDD運算元基礎操作200 6.4.5場景應用:房屋銷售資料分析201 6.5SparkSQL—查詢引擎框架205 6.5.1SparkSQL概述205 6.5.2DataFrame基礎操作205 6.5.3場景應用:廣告
客服公告
热门活动
订阅电子报