预购商品
书目分类
特别推荐
本書全面介紹了數據開發利用技術,包括大數據計算、大數據管理、大數據安全、大數據視覺化、數據自治、數據爬蟲、知識圖譜、大數據採擷、深度學習、區塊鏈等技術,還特別介紹了數據產品生產技術。這些技術涵蓋了數據獲取與管理、數據分析與應用、數據安全與流通等數據開發利用的各個環節,形成一個較為完整的大數據技術體系。
第1章 緒論 1 1.1 大數據的技術挑戰 1 1.1.1 大數據的"大"1 1.1.2 數據"大"的技術挑戰 3 1.1.3 大數據決策的技術挑戰 5 1.1.4 數據安全的技術問題 7 1.2 大數據計算 8 1.2.1 大數據檔案 9 1.2.2 大數據計算框架 10 1.2.3 大數據管理 11 1.3 數據開發 12 1.3.1 數據獲取 12 1.3.2 數據分析 13 1.3.3 數據視覺化 14 1.4 數據產業支援 15 1.4.1 數據產業需要的技術支援 15 1.4.2 數據資產化 16 1.4.3 數據產品及其品質 17 1.4.4 數據流程通與安全 18 1.5 小結 19 參考文獻 19 第2章 大數據計算 21 2.1 數據訪問21 2.1.1 安全模型 21 2.1.2 存取控制策略 23 2.1.3 存取控制與授權 24 2.1.4 存取控制與審計 24 2.2 分散式檔案系統 24 2.2.1 GoogleFS 25 2.2.2 HDFS 27 2.2.3 GlusterFS 28 2.2.4 CephFS 29 2.3 大數據計算框架 30 2.3.1 批次處理 30 2.3.2 流數據計算 38 2.3.3 增量計算模型 41 2.3.4 新興計算框架 44 2.3.5 大數據計算框架的發展 46 2.4 多地計算異地計算模式 48 2.4.1 概念48 2.4.2 計算模型 49 2.4.3 特點 49 2.5 小結 49 參考文獻 49 第3章 大數據管理 51 3.1 概述 51 3.2 分散式檔案系統 HDFS 52 3.2.1 前提和設計目標 53 3.2.2 數據塊 53 3.2.3 HDFS架構 54 3.2.4 HDFS容錯機制 54 3.3 列式存儲格式 Parquet 55 3.3.1 行存儲與列存儲檔案格式 55 3.3.2 Parquet 概述 56 3.3.3 數據模型 56 3.3.4 Parquet 檔的存儲格式 57 3.4 NOSOL 58 3.4.1 鍵值對數據庫 58 3.4.2 基於列族的數據庫 59 3.4.3 基於文檔的數據庫 59 3.4.4 基於圖的數據庫 60 3.5 鍵值數據庫 Redis 60 3.5.1 Redis簡介 60 3.5.2 Redis數據類型 61 3.5.3 Redis事務 63 3.5.4 Redis 持久化機制 63 3.6 HBase 63 3.6.1 HBase簡介 63 3.6.2 HBase訪問介面 64 3.6.3 HBase數據模型 64 3.6.4 HBase系統架構 65 3.6.5 HBase存儲格式 66 3.7 Dynamo67 3.7.1 Dynamo系統設計假設和前提 67 3.7.2 Dynamo數據分佈策略 68 3.7.3 CAP原理 68 3.7.4 Dynamo 的一致性實現技術 69 3.7.5 Dynamo系統訪問介面 69 3.8 Cassandra 69 3.9 MongoDB 70 3.9.1 MongoDB簡介 70 3.9.2 MongoDB數據模型70 3.9.3 MongoDB基礎操作71 3.9.4 MongoDB聚集操作 73 3.9.5 MongoDB複製機制75 3.9.6 MongoDB分片機制 76 3.10 Neo4j 76 3.10.1 Neo4j簡介 76 3.10.2 Neo4j基礎概念 77 3.10.3 NeO4j的Cypher查詢語言和模式 78 ......
朱揚勇,復旦大學電腦科學技術學院教授、學術委員會主任,上海市資料科學重點實驗室主任,上海市政府資訊化專家委員會專家,中國電腦學會大資料專家委員會專家,美國馬里蘭大學客座教授。從事資料領域研究25年,是很早一批從事資料採擷研究的學者,是資料科學研究的主要宣導者之一。主持過國家自然科學基金、國家863計畫項目、上海市科委重點等多項資料採擷領域的研究課題,曾獲上海市科技進步一、二、三等獎。相關研究成果在具有影響力的外期刊或會議上發表論文100餘篇,出版專著2本,教材3本。2009年發表了資料科學論文Data Explosion, Data Nature 等。
客服公告
热门活动
订阅电子报