Hadoop大數(shù)據(jù)處理技術(shù)基礎(chǔ)與實(shí)踐(微課版)(第3版)
定 價(jià):¥59.8
中 教 價(jià):¥44.85 (7.50折)
庫(kù) 存 數(shù): 1
叢 書 名:工業(yè)和信息化精品系列教材
本書共11章,從Hadoop概述開(kāi)始,介紹Hadoop的安裝、配置與管理,并對(duì)Hadoop的生態(tài)體系架構(gòu)進(jìn)行介紹,包括HDFS技術(shù)、YARN技術(shù)、MapReduce技術(shù)、Hadoop I/O操作、海量數(shù)據(jù)庫(kù)技術(shù)HBase、ZooKeeper技術(shù)、分布式數(shù)據(jù)倉(cāng)庫(kù)技術(shù)Hive,以及Hadoop與RDBMS數(shù)據(jù)遷移工具Sqoop,最后對(duì)大數(shù)據(jù)實(shí)時(shí)處理技術(shù)進(jìn)行介紹,旨在讓讀者了解當(dāng)前其他的大數(shù)據(jù)處理技術(shù)。本書還包括豐富的實(shí)踐操作,實(shí)現(xiàn)理論與實(shí)踐的有機(jī)結(jié)合。本書除介紹Hadoop的理論外,還介紹如何使用各組件,但因?yàn)橹唤榻B基礎(chǔ)的使用方法,沒(méi)有涉及底層的高級(jí)內(nèi)容,所以本書只起引導(dǎo)作用。本書旨在讓讀者了解Hadoop并能夠使用Hadoop的基本功能,并不是學(xué)習(xí)Hadoop的完整手冊(cè)。本書適合作為高等院校和職業(yè)院校大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算及其他計(jì)算機(jī)相關(guān)專業(yè)的教材,也可供云計(jì)算與大數(shù)據(jù)技術(shù)相關(guān)專業(yè)的培訓(xùn)班使用。
1.立德樹(shù)人,深刻領(lǐng)會(huì)二十大精神2.附有習(xí)題,以及實(shí)踐性較強(qiáng)的實(shí)訓(xùn),鞏固所學(xué)知識(shí)3.側(cè)重應(yīng)用能力的培養(yǎng),對(duì)學(xué)生起到一個(gè)引導(dǎo)作用4.配備了PPT課件、源代碼、習(xí)題答案、微課等豐富的教學(xué)資源
安俊秀,教授,成都信息工程大學(xué)教師。2004年7月從西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè),獲工學(xué)碩士學(xué)位。中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員;中國(guó)電子學(xué)會(huì)高級(jí)會(huì)員;成都市科技攻關(guān)計(jì)劃評(píng)審專家;成都軍區(qū)項(xiàng)目評(píng)審專家;汕尾市科技顧問(wèn)團(tuán)首席顧問(wèn)。 在教學(xué)上,嚴(yán)格要求自己,勤奮鉆研、不斷提升教學(xué)水平,給更多學(xué)生以幫助和愛(ài)護(hù)。于1993年畢業(yè)進(jìn)入山西大學(xué)商務(wù)學(xué)院任教,2006年底調(diào)入成都信息工程大學(xué)任教。最近三年,先后承擔(dān)了《Linux體系和編程》、《軟件項(xiàng)目管理》、《工程導(dǎo)論》、《計(jì)算機(jī)組成原理》等本科課程;承擔(dān)了《云計(jì)算與大數(shù)據(jù)》、《并行計(jì)算》、《Hadoop處理技術(shù)》等研究生課程,學(xué)校考核均為優(yōu)。 在科研工作方面,一直從事云計(jì)算與大數(shù)據(jù)、信息智能搜索與計(jì)算社會(huì)方面的研究工作。近三年發(fā)表論文20余篇,其中第一作者10余篇,核心期刊以上占5篇。獨(dú)立完成專著1部,編著教材1部和參與編著教材1部,主編教材1部。獲得國(guó)家發(fā)明專利2項(xiàng)(2014授權(quán)),實(shí)用新型專利授權(quán)12項(xiàng)。獲得軟件著作權(quán)13項(xiàng)。科研項(xiàng)目10項(xiàng)。2015年獲四川省社科高水平研究團(tuán)隊(duì)稱號(hào)。
目錄第 1章Hadoop概述 11.1 Hadoop簡(jiǎn)介 11.2 Hadoop體系架構(gòu) 31.2.1 Hadoop基礎(chǔ)架構(gòu) 31.2.2 Hadoop生態(tài)系統(tǒng) 31.3 Hadoop與分布式開(kāi)發(fā) 51.4 Hadoop行業(yè)應(yīng)用案例分析 61.4.1 Hadoop在門戶網(wǎng)站中的應(yīng)用 61.4.2 Hadoop在搜索引擎中的應(yīng)用 71.4.3 Hadoop在電商平臺(tái)中的應(yīng)用 7習(xí)題 8第 2章Hadoop的安裝、配置與管理 92.1 實(shí)驗(yàn)準(zhǔn)備 92.2 配置一個(gè)單節(jié)點(diǎn)環(huán)境 102.2.1 運(yùn)行一個(gè)虛擬環(huán)境CentOS 102.2.2 配置網(wǎng)絡(luò) 112.2.3 創(chuàng)建新的用戶組和用戶 152.2.4 上傳文件到CentOS并配置Java和Hadoop環(huán)境 162.2.5 修改Hadoop 3.2配置文件 192.2.6 修改CentOS主機(jī)名 222.2.7 綁定hostname與IP地址 222.2.8 關(guān)閉防火墻 232.3 節(jié)點(diǎn)之間的免密碼登錄 232.3.1 什么是SSH 232.3.2 復(fù)制虛擬機(jī)節(jié)點(diǎn) 242.3.3 配置SSH免密碼登錄 252.4 Hadoop的啟動(dòng)和測(cè)試 272.4.1 格式化文件系統(tǒng) 272.4.2 啟動(dòng)HDFS 282.4.3 啟動(dòng)YARN 292.4.4 啟動(dòng)JobHistory Server 292.4.5 集群驗(yàn)證 302.4.6 需要了解的默認(rèn)配置 312.5 動(dòng)態(tài)管理節(jié)點(diǎn) 322.5.1 動(dòng)態(tài)增加和刪除DataNode 322.5.2 動(dòng)態(tài)修改TaskTracker 33習(xí)題 34第3章HDFS技術(shù) 363.1 HDFS的特點(diǎn) 363.2 HDFS架構(gòu) 373.2.1 數(shù)據(jù)塊 383.2.2 NameNode與DataNode 393.2.3 輔助NameNode 403.2.4 安全模式與負(fù)載均衡 423.2.5 垃圾回收 433.3 HDFS Shell命令 443.3.1 文件處理命令 443.3.2 交互式命令 493.4 HDFS中Java API的使用 533.4.1 上傳文件 543.4.2 新建文件 553.4.3 查看文件詳細(xì)信息 563.4.4 下載文件 573.5 RPC通信 583.5.1 反射機(jī)制 593.5.2 代理模式與動(dòng)態(tài)代理 623.5.3 Hadoop RPC機(jī)制與源碼分析 64習(xí)題 68第4章YARN技術(shù) 694.1 YARN概述 694.1.1 YARN產(chǎn)生背景MRv1的局限性 694.1.2 YARN的通信協(xié)議 704.2 YARN基本框架 714.3 YARN資源調(diào)度器 734.4 YARN的工作流程 744.5 YARN的實(shí)戰(zhàn)案例 76習(xí)題 79第5章MapReduce技術(shù) 805.1 什么是MapReduce 805.2 MapReduce編程模型 815.2.1 MapReduce模型簡(jiǎn)介 815.2.2 MapReduce模型分類 825.2.3 MapReduce編程實(shí)例WordCount 835.3 MapReduce數(shù)據(jù)流 845.3.1 分片并格式化原始數(shù)據(jù)(InputFormat) 845.3.2 Map過(guò)程 865.3.3 Shuffle過(guò)程 865.3.4 Reduce過(guò)程 915.3.5 按指定格式寫入文件(OutputFormat) 925.4 MapReduce任務(wù)流程 925.5 MapReduce的Streaming和Pipe 935.5.1 Hadoop Streaming 935.5.2 Hadoop Pipe 955.6 MapReduce性能調(diào)優(yōu) 965.7 MapReduce實(shí)戰(zhàn) 985.7.1 快速入門 985.7.2 簡(jiǎn)單使用Eclipse插件 110習(xí)題 118第6章Hadoop I/O操作 1196.1 HDFS數(shù)據(jù)完整性 1196.1.1 校驗(yàn)和 1196.1.2 運(yùn)行后臺(tái)進(jìn)程來(lái)檢測(cè)數(shù)據(jù)塊 1206.2 基于文件的數(shù)據(jù)結(jié)構(gòu) 1216.2.1 SequenceFile的存儲(chǔ) 1216.2.2 MapFile的存儲(chǔ) 1256.2.3 SequenceFile轉(zhuǎn)換為MapFile 1286.3 壓縮 1296.3.1 認(rèn)識(shí)壓縮 1296.3.2 Codec 1306.3.3 本地庫(kù) 1326.3.4 如何選擇壓縮格式 1336.4 序列化 1346.4.1 認(rèn)識(shí)序列化 1346.4.2 Writable接口 1356.4.3 WritableComparable接口 1366.4.4 Hadoop Writable基本類型 1376.4.5 自定義Writable類型 142習(xí)題 144第7章海量數(shù)據(jù)庫(kù)技術(shù)HBase 1457.1 初識(shí)HBase 1457.2 HBase表視圖 1467.2.1 概念視圖 1467.2.2 物理視圖 1477.3 HBase物理存儲(chǔ)模型 1487.4 安裝HBase 1547.4.1 HBase單節(jié)點(diǎn)安裝 1547.4.2 HBase偽分布式安裝 1577.4.3 HBase完全分布式安裝 1587.5 HBase Shell 1607.5.1 HBase Shell的命令 1607.5.2 general操作 1627.5.3 DDL操作 1637.5.4 DML操作 1657.6 HBase操作實(shí)踐 167習(xí)題 170第8章ZooKeeper技術(shù) 1718.1 分布式協(xié)調(diào)技術(shù)及其實(shí)現(xiàn)者 1718.2 ZooKeeper基本架構(gòu) 1728.3 ZooKeeper數(shù)據(jù)模型 1738.3.1 Znode 1738.3.2 ZooKeeper中的時(shí)間 1748.3.3 Znode屬性 1758.3.4 watch觸發(fā)器 1768.4 ZooKeeper集群安裝 1778.5 ZooKeeper的主要Shell操作 1798.6 典型應(yīng)用場(chǎng)景 1808.6.1 數(shù)據(jù)發(fā)布與訂閱 1808.6.2 統(tǒng)一命名服務(wù) 1828.6.3 分布式通知/協(xié)調(diào) 182習(xí)題 183第9章分布式數(shù)據(jù)倉(cāng)庫(kù)技術(shù)Hive 1849.1 Hive出現(xiàn)的原因 1849.2 Hive服務(wù)的組成 1859.3 Hive的安裝 1869.3.1 Hive基本安裝 1869.3.2 MySQL的安裝 1879.3.3 Hive的配置 1889.4 Hive Shell 1919.5 HQL的概念和使用 1929.5.1 認(rèn)識(shí)HQL 1929.5.2 Hive管理數(shù)據(jù)方式 1929.5.3 Hive表的DDL操作 1949.5.4 Hive表的DML操作 2039.6 使用Hive實(shí)現(xiàn)聊天數(shù)據(jù)分析案例 207習(xí)題 210第 10章Hadoop與RDBMS數(shù)據(jù)遷移工具Sqoop 21110.1 Sqoop簡(jiǎn)介及基本安裝 21110.2 Sqoop的配置 21210.3 Sqoop的相關(guān)功能 21310.3.1 Sqoop的工具命令 21310.3.2 Sqoop與MySQL 21410.3.3 sqoop-import操作 21510.3.4 sqoop-import-all-tables操作 22010.3.5 sqoop-export操作 22210.3.6 sqoop-list-databases和sqoop-list-tables操作 22410.4 Hive、Pig和Sqoop三者之間的關(guān)系 22410.5 基于Sqoop的MySQL和Hive之間的數(shù)據(jù)遷移實(shí)操案例 225習(xí)題 228第 11章大數(shù)據(jù)實(shí)時(shí)處理技術(shù) 22911.1 Flink 22911.1.1 Flink架構(gòu) 23011.1.2 Flink部署 23111.1.3 Flink的運(yùn)行架構(gòu) 23511.1.4 Flink流處理API 23811.2 Spark 23911.2.1 Apache Spark架構(gòu) 23911.2.2 Apache Spark的擴(kuò)展功能 24111.3 Flink與Spark異同 243習(xí)題 244