本書從初學者的角度詳細介紹大數據的核心技術。全書共11章,包括緒論、Linux的基礎操作、Hadoop大數據處理架構、HDFS分布式文件系統、MapReduce分布式計算框架、ZooKeeper分布式協調服務、YARN資源管理器、HBase分布式數據庫、Hive數據倉儲、PySpark數據處理與分析及綜合案例。此外,本書還提供了相應的示例代碼,以幫助讀者進一步理解相關方案的實現過程。
本書以項目實踐作為主線,結合必需的理論知識,以任務的形式進行內容設計,每個任務都包含任務描述及任務實施的步驟,讀者按照實施步驟進行操作就可以完成相應的學習任務,從而不斷提升項目實踐能力。本書主要內容涉及Spark基本原理、基于IDEA搭建Spark開發環境、RDD基本原理、Spark SQL基本操作流程、電商業務系統的基本流程、電商用戶行為分析的基本指標以及分析過程、通過不同的維度對銷售數據進行分析、通過不同的維度對訂單數據進行分析以及常用的可視化分析圖表的應用場景等。 本書適合需要使用Spar
數據是人類共同的財富數據是現代科學研究的基石。在當今這個大數據的時代,如何強調數據的重要性似乎都不為過。隨著互聯網及其應用的普及,傳統關系數據庫越來越難以滿足計算機應用對數據存儲、訪問和安全的需要,非關系數據庫和新興數據庫應運而生。本書主要面向新一代數據庫系統,詳細介紹數據庫發展史、數據庫設計原則、NoSQL和NewSQL的基本原理與設計思想。本書選取了新一代數據庫發展歷程中具有代表性的數據庫展開講解,如鍵值數據庫實例的Redis與DynamoDB、列族數據庫的HBase與Cassandr
要想在數據科學領域取得成功,你需要精通數學。但不僅僅是數學。這本指南提供了一個清晰的、簡單的答案,你需要了解,包括概率、統計、假設測試、線性代數、機器學習和微積分的知識。使用Python代碼的實際示例將幫助您了解數學如何應用于您將要做的工作,在將概念連接到機器學習等應用程序時,提供了對概念在底層如何工作的清晰理解。你會得到一個堅實的基礎,但更重要的是,你將能夠使用它。書中內容包括:認識到概率數學的細微差別和缺陷;掌握統計和假設測試(并避免常見的陷阱);探
架構大數據系統涉及的技術和工具種類繁多,但技術和工具背后的大數據處理需求和解決問題的思維邏輯卻恒久不變。本書采用軟件工程化方法,從大數據架構的需求出發,籍由理性和常識的指引,推導和梳理大數據架構之術(大數據處理的基本原理和技術方法),進而討論大數據架構之器(具體軟件工具的功能、設計、實現以及使用方法),建立大數據架構教學的知識體系。本書可用作普通高校數據科學與大數據相關專業的基礎教材,亦可用作高職高專職業教育培訓教材以及相關工程技術人員的參考用書。
"本書為項目式、任務式教材。以三個具體的項目為載體,每個項目分若干個任務。分別為:滑倉系統概念設計與虛擬調試、加蓋擰蓋單元概念設計與虛擬調試、檢測分揀單元概念設計與虛擬調試。第一個項目以基本知識的學習與應用為目的,讀者通過該項目的學習與實踐初步掌握概念設計與虛擬調試的基本技能;第二個項目、第三個項目以全國職業院校技能大賽“機電一體化項目”競賽設備為原型進行簡化設計,模擬加蓋擰蓋生產線、檢測分揀生產線的運行流程。讀者在完成各任務的過程中學習MCD知識技能點并熟練掌握其應用,每個任務點均設計有任務驗
數據作為數字經濟的血液、知識經濟的基石,是企業的戰略性資源。將數據轉化為可被企業直接使用的有價值的資產,即“數據資產化”,已經成為企業數字化轉型的重要目標。本書闡明了數據資產化的意義,圍繞數據資產的確認、登記、質量評估、價值評估、入表,數據高效流通及價格發現等方面,系統闡述了數據資產化的理論和實踐問題。本書可以幫助讀者深入了解數據資產化這一全新且充滿機遇的領域,提高數據資產的管理和利用水平,推動企業數字化轉型的進步和升級。
本書系統講述Apache Spark/PySpark大數據計算平臺的原理,以及如果將Apache PySpark應用于大數據的實時流處理、批處理等各個場景。通過原理深入學習和實踐示例、案例的學習應用,使讀者了解并掌握Apache Spark/PySpark的基本原理和技能,接近理論與實踐的距離。全書共分為8章,主要內容包括:Spark架構原理與集群搭建、開發和部署PySpark應用程序、PySpark核心編程、PySpark SQL、PySpark SQL高級分析、PySpark結構化流
"數據科學項目日益增多,每個項目在提出原型到生產的過程中都需要可靠的基礎設施。使用《Effective數據科學基礎設施》介紹的一些新技術和新工具,你將能建立一個適用于各類組織(無論是初創企業還是大型企業)的基礎設施堆棧。 《Effective數據科學基礎設施》可幫助你建立數據流程和項目工作流,為你開發項目帶來強大動力!禘ffective數據科學基礎設施》呈現Netflix數據操作的**進工具和概念,并在此基礎上介紹一種可定制的基于云的模型開發和MLOps方法,可輕松適應公司的特定需求。當
本書由校企“雙元”合作開發,以企業真實項目的實施流程為主線,通過“電商平臺用戶行為數據分析”項目實戰,貫穿Hadoop大數據核心技術,包括項目需求、大數據平臺部署、數據采集、離線數據倉庫設計與開發和項目數據可視化展示。本書內容主要涉及VMware、Xshell、IDEA等軟件的安裝配置;Hadoop分布式集群環境搭建; Flume、Kafka、Hive、Sqoop、ZooKeeper等Hadoop生態組件的基本工作原理、搭建及配置方法;使用Flume-Kafka-Flume架構實現數據采集;Hi