前 言
基 礎(chǔ) 篇
第1 章 緒論 3
1.1 概述 3
1.1.1 數(shù)據(jù) 4
1.1.2 數(shù)據(jù)中蘊含的價值 6
1.1.3 獲取數(shù)據(jù)中蘊含的價值 8
1.2 大數(shù)據(jù)的內(nèi)涵和外延 9
1.2.1 大數(shù)據(jù)時代的驅(qū)動力 9
1.2.2 大數(shù)據(jù)的概念和特征 10
1.2.3 大數(shù)據(jù)帶來的思維模式改變 12
1.2.4 大數(shù)據(jù)的作用和意義 13
1.3 大數(shù)據(jù)的技術(shù)挑戰(zhàn)和科學(xué)意義 15
1.3.1 數(shù)據(jù)處理的一般過程 16
1.3.2 大數(shù)據(jù)計算面臨的挑戰(zhàn) 17
1.3.3 大數(shù)據(jù)計算的特點 18
1.3.4 大數(shù)據(jù)計算平臺 19
1.3.5 大數(shù)據(jù)與云計算;人工智能的關(guān)系 20
1.4 數(shù)據(jù)科學(xué) 22
1.4.1 數(shù)據(jù)科學(xué)的提出 23
1.4.2 數(shù)據(jù)科學(xué)的范疇 23
1.4.3 數(shù)據(jù)科學(xué)對學(xué)科發(fā)展的影響 24
習(xí)題 25
參考文獻及擴展閱讀資料 26
技 術(shù) 篇
第2 章 數(shù)據(jù)采集與治理 29
2.1 概述 30
2.2 大數(shù)據(jù)的來源與多源數(shù)據(jù)的采集方式 30
2.2.1 大數(shù)據(jù)的來源 30
2.2.2 多源數(shù)據(jù)的采集 31
2.2.3 數(shù)據(jù)離散化 33
2.3 數(shù)據(jù)集成和跨界應(yīng)用的數(shù)據(jù)集成方法 34
2.3.1 數(shù)據(jù)集成的定義與形式 34
2.3.2 傳統(tǒng)數(shù)據(jù)集成 35
2.3.3 跨界數(shù)據(jù)集成 38
2.4 數(shù)據(jù)的預(yù)處理 40
2.4.1 數(shù)據(jù)變換 40
2.4.2 數(shù)據(jù)質(zhì)量的檢驗與提升 41
習(xí)題 44
參考文獻及擴展閱讀資料 44
第3 章 數(shù)據(jù)管理 46
3.1 概述 46
3.2 關(guān)系數(shù)據(jù)庫 47
3.2.1 關(guān)系數(shù)據(jù)模型 48
3.2.2 結(jié)構(gòu)化查詢語言 51
3.2.3 數(shù)據(jù)庫事務(wù) 52
3.2.4 關(guān)系數(shù)據(jù)庫管理系統(tǒng) 53
3.3 分布式文件系統(tǒng) 54
3.3.1 Hadoop 55
3.3.2 Ceph 57
3.3.3 GlusterFS 59
3.3.4 分布式文件系統(tǒng)對比 60
3.4 新型數(shù)據(jù)管理與查詢系統(tǒng) 61
3.4.1 NoSQL 數(shù)據(jù)庫 61
3.4.2 SQL on Hadoop 系統(tǒng) 65
......