本書介紹了Hadoop生態系統架構功能與原理;分布式文件系統HDF-SHDFS;MapReduce編程模型及應用開發;YARN原理及配置;Hadoop偽分布式環境的搭建與配置測試;Hadoop完整分布式的集群配置搭建;Zookeeper分布式協作框架;HDFSHA原理功能與配置測試;ResourceManagerHA原理與配置;通過實際案例介紹了網站用戶行為分析、網站后臺日志分析和二次排序;介紹數據倉庫Hive的原理及安裝部署、Hive的基本操作及實戰操作;大數據協作框架Sqoop、Flume、Oozie及Hue的原理、配置、使用及其在企業項目中使用的架構;HBase的概念、HBase內部管理(region分裂、分配、合并)、HBase架構設計及表的存儲設計;HBaseshell基本使用;HBaseJavaAPI使用及HBase應用案例。
省級"統計信息與經濟數據處理綜合學科訓練中心"主任,是省高校軟件服務外包類專業嵌入式人才培養項目--信息與計算科學(嵌入式培養)項目負責人,省級"信息與計算科學"、校級"統計學"重點學科的專業學科帶頭人
目錄
第1章 Hadoop概述 1
1.1 大數據應用發展前景 1
1.2 Hadoop簡介 4
1.3 Hadoop架構 8
1.4 Hadoop生態系統 11
1.5 Hadoop 3.x新特性 12
第2章 Hadoop環境部署 15
2.1 環境部署準備工作 15
2.2 Hadoop部署方式概述 20
2.3 本地運行模式 20
2.4 基于完全分布式模式部署 21
2.5 MapReduce日志 32
2.6 集群時間同步 35
第3章 Hadoop分布式文件存儲 37
3.1 HDFS 文件系統架構剖析 37
3.2 HDFS的概念詳解 39
3.3 SecondaryNameNode 配置 42
3.4 HDFS 中本地存儲目錄的配置分析 44
3.5 環境安裝和HDFS API 47
第4章 Hadoop 3.x之YARN和MapReduce 52
4.1 YARN的架構與應用監控 52
4.2 MapReduce編程模型 58
4.3 MapReduce Shuffle過程詳解剖析 70
第5章 MapReduce案例分析 77
5.1 電商網站用戶行為日志統計分析 77
5.2 旅行網站訂單類型統計項目 84
5.3 倒排索引 88
第6章 Zookeeper 92
6.1 分布式協作框架Zookeeper 92
6.2 Zookeeper單機模式安裝及zkCli基本命令使用 95
6.3 Zookeeper分布式集群安裝部署 98
第7章 Hadoop 3.x之高可用性及聯邦架構 101
7.1 HDFS HA 架構原理設計 101
7.2 配置HDFS HA部署、啟動和測試 104
7.3 配置HDFS HA自動故障轉移及測試 112
7.4 ResourceManager HA架構原理 117
7.5 ResourceManager HA配置、部署、啟動及測試 119
7.6 NameNode Federation架構原理 124
7.7 NameNode Federation配置與測試 127
7.8 Hadoop 3.x自帶工具DistCp使用 130
第8章 MapReduce高級編程之案例篇 133
8.1 MapReduce高級編程之二次排序 133
8.2 MapReduce高級編程之Join編程 143
8.3 網站用戶行為日志分析 149
第9章 大數據倉庫Hive之基礎篇 153
9.1 Hive簡介 153
9.2 Hive安裝部署 155
9.3 MySQL保存元數據 159
9.4 HiveServer2訪問方式 164
9.5 Hive基本shell交互式命令 165
9.6 Hive常用屬性配置 166
第10章 大數據倉庫Hive之深入篇 169
10.1 Hive數據類型 169
10.2 Hive數據庫的基本操作 170
10.3 Hive數據表的基本操作 172
10.4 Hive數據表類型 176
10.5 Hive數據操縱 177
10.6 Hive數據查詢 180
10.7 Hive分區表與分桶表 191
10.8 自定義函數 194
10.9 常見Hive調優策略 198
第11章 大數據倉庫Hive之案例篇 205
11.1 Hive壓縮與配置 205
11.2 Hive文件存儲格式 210
11.3 Hive實戰案例:網站訪問日志分析 217
11.4 Hive實戰案例:MovieLens數據分析 222
第12章 分布式數據庫HBase225
12.1 HBase概述 225
12.2 HBase的體系架構 226
12.3 HBase數據模型與存儲結構 227
12.4 HBase部署 232
12.5 HBaseshell 操作 236
12.6 HBaseJava API使用 247
第13章 HBase進階篇 257
13.1 HBase架構深入剖析 257
13.2 HBase創建表時的預分區 260
13.3 HBase表設計 263
13.4 HBase表屬性 269
13.5 HBase管理工具 273
13.6 HBase與Hive集成 278
第14章 數據同步框架DataX 283
14.1 DataX概述 283
14.2 DataX架構 285
14.3 DataX安裝部署 287
14.4 同步MySQL數據到HDFS案例 289
14.5 DataX參數傳遞 295
14.6 同步HDFS數據到MySQL案例 297
第15章 大數據協作框架之Flume 300
15.1 Flume設計架構 300
15.2 Flume環境搭建 303
15.3 Flume常用組件的詳細介紹 306
15.4 案例分析:收集數據至HDFS 311
15.5 Flume企業實戰案例 313
主要參考文獻 317