當(dāng)大數(shù)據(jù)資源變得越發(fā)復(fù)雜時(shí),僅靠更強(qiáng)大的計(jì)算機(jī)系統(tǒng)已無法解決問題。本書帶我們重新審視數(shù)據(jù)準(zhǔn)備環(huán)節(jié),重點(diǎn)討論了其中至關(guān)重要但又常常被忽略的主題——標(biāo)識(shí)符、不變性、內(nèi)省和數(shù)據(jù)索引。此外,書中也涵蓋常見的與大數(shù)據(jù)設(shè)計(jì)、架構(gòu)、操作和分析相關(guān)的內(nèi)容,以及涉及法律、社會(huì)和倫理問題的非技術(shù)性章節(jié)。全書視角獨(dú)特,涉獵廣博,尤以醫(yī)學(xué)大數(shù)據(jù)分析見長(zhǎng),強(qiáng)調(diào)基本原理,不關(guān)注編程細(xì)節(jié)和數(shù)學(xué)公式,適合企業(yè)決策者、技術(shù)專家以及計(jì)算機(jī)相關(guān)專業(yè)的學(xué)生閱讀。
譯者序
第2版前言
第1版前言
作者簡(jiǎn)介
第1章 引言1
1.1 大數(shù)據(jù)的定義1
1.2 大數(shù)據(jù)與小數(shù)據(jù)2
1.3 大數(shù)據(jù)在哪里5
1.4 大數(shù)據(jù)最常見的目的是產(chǎn)生小數(shù)據(jù)6
1.5 大數(shù)據(jù)是研究領(lǐng)域的中心話題6
術(shù)語表7
參考文獻(xiàn)11
第2章 為非結(jié)構(gòu)化數(shù)據(jù)提供結(jié)構(gòu)13
2.1 幾乎所有數(shù)據(jù)都是非結(jié)構(gòu)化的、
不可用的原始形式13
2.2 詞匯索引14
2.3 術(shù)語提取16
2.4 構(gòu)建索引19
2.5 自動(dòng)編碼20
2.6 案例研究:宇宙中任意原子精確位置的快速定位(需要安裝一些軟件)24
2.7 案例研究(高級(jí)):一個(gè)完整的自動(dòng)編碼器(12行Python代碼)26
2.8 案例研究:以詞匯索引進(jìn)行文本轉(zhuǎn)換28
2.9 案例研究(高級(jí)):Burrows Wheeler變換30
術(shù)語表32
參考文獻(xiàn)43
第3章 標(biāo)識(shí)、去標(biāo)識(shí)和重標(biāo)識(shí)45
3.1 什么是標(biāo)識(shí)符45
3.2 標(biāo)識(shí)符和標(biāo)識(shí)系統(tǒng)之間的區(qū)別46
3.3 生成唯一標(biāo)識(shí)符48
3.4 糟糕的標(biāo)識(shí)方法50
3.5 注冊(cè)唯一對(duì)象標(biāo)識(shí)符53
3.6 去標(biāo)識(shí)和重標(biāo)識(shí)55
3.7 案例研究:數(shù)據(jù)清理57
3.8 案例研究(高級(jí)):圖像標(biāo)題中的標(biāo)識(shí)符59
3.9 案例研究:?jiǎn)蜗蛏⒘泻瘮?shù)61
術(shù)語表63
參考文獻(xiàn)69
第4章 元數(shù)據(jù)、語義和三元組71
4.1 元數(shù)據(jù)71
4.2 可擴(kuò)展標(biāo)記語言71
4.3 語義和三元組72
4.4 命名空間74
4.5 案例研究:三元組的語法75
4.6 案例研究:Dublin Core77
術(shù)語表78
參考文獻(xiàn)80
第5章 分類和本體論81
5.1 關(guān)于對(duì)象關(guān)系的全部81
5.2 分類:最簡(jiǎn)單的本體84
5.3 本體:有多個(gè)父類的類86
5.4 分類模型選擇88
5.5 類混合91
5.6 本體開發(fā)的常見陷阱92
5.7 案例研究:上層本體93
5.8 案例研究(高級(jí)):悖論94
5.9 案例研究(高級(jí)):RDF框架和類屬性96
5.10 案例研究(高級(jí)):可視化類關(guān)系98
術(shù)語表102
參考文獻(xiàn)111
第6章 內(nèi)省113
6.1 自我認(rèn)知113
6.2 數(shù)據(jù)對(duì)象:每個(gè)大數(shù)據(jù)集合中最基本的元素116
6.3 大數(shù)據(jù)如何使用內(nèi)省117
6.4 案例研究:時(shí)間戳數(shù)據(jù)119
6.5 案例研究:TripleStore 簡(jiǎn)介121
6.6 案例研究(高級(jí)):大數(shù)據(jù)必須是面向?qū)ο蟮淖C明125
術(shù)語表126
參考文獻(xiàn)127
第7章 標(biāo)準(zhǔn)和數(shù)據(jù)集成128
7.1 標(biāo)準(zhǔn)128
7.2 規(guī)范與標(biāo)準(zhǔn)132
7.3 版本控制134
7.4 合規(guī)問題135
7.5 案例研究:標(biāo)準(zhǔn)化巧克力茶壺135
術(shù)語表136
參考文獻(xiàn)137
第8章 不變性和永久性139
8.1 數(shù)據(jù)不變性的重要性139
8.2 不變性和標(biāo)識(shí)符140
8.3 數(shù)據(jù)產(chǎn)生數(shù)據(jù)142
8.4 跨機(jī)構(gòu)協(xié)調(diào)標(biāo)識(shí)符143
8.5 案例研究:可信時(shí)間戳144
8.6 案例研究:區(qū)塊鏈和分布式賬本145
8.7 案例研究(高級(jí)):零知識(shí)協(xié)調(diào)147
術(shù)語表148
參考文獻(xiàn)150
第9章 評(píng)估大數(shù)據(jù)資源的充分性152
9.1 觀察數(shù)據(jù)152
9.2 大數(shù)據(jù)的最小必要屬性158
9.3 附加條件的數(shù)據(jù)161
9.4 案例研究:用于查看和搜索大型文件的實(shí)用程序162
9.5 案例研究:數(shù)據(jù)扁平化164
術(shù)語表164
參考文獻(xiàn)169
第10章 測(cè)量170
10.1 準(zhǔn)確性與精度170
10.2 數(shù)據(jù)范圍171
10.3 計(jì)數(shù)173
10.4 數(shù)據(jù)標(biāo)準(zhǔn)化和變換176
10.5 約簡(jiǎn)數(shù)據(jù)179
10.6 理解控制181
10.7 沒有實(shí)際意義的統(tǒng)計(jì)意義182
10.8 案例研究:基因計(jì)數(shù)183
10.9 案例研究:早期生物特征和狹窄數(shù)據(jù)范圍的意義184
術(shù)語表185
參考文獻(xiàn)186
第11章 快速簡(jiǎn)單的大數(shù)據(jù)分析必不可少的技巧188
11.1 速度和可擴(kuò)展性188
11.2 適用于大數(shù)據(jù)的快速操作,并且每臺(tái)計(jì)算機(jī)都支持193
11.3 點(diǎn)積—一種簡(jiǎn)單快速的相關(guān)方法197
11.4 聚類199
11.5 數(shù)據(jù)持久性方法(不使用數(shù)據(jù)庫)201
11.6 案例研究:爬升分類202
11.7 案例研究(高級(jí)):數(shù)據(jù)庫示例203
11.8 案例研究(高級(jí)):NoSQL205
術(shù)語表205
參考文獻(xiàn)209
第12章 尋找大型數(shù)據(jù)集中的線索211
12.1 分母211
12.2 詞頻分布212
12.3 異常值和異常215
12.4 封底分析216
12.5 案例研究:預(yù)測(cè)用戶偏好218
12.6 案例研究:人口數(shù)據(jù)的多模態(tài)219
12.7 案例研究:大小黑洞220
術(shù)語表220
參考文獻(xiàn)224
第13章 使用隨機(jī)數(shù)將大數(shù)據(jù)分析問題的規(guī)模縮小225
13.1 (偽)隨機(jī)數(shù)的顯著效用225
13.2 重采樣230
13.3 蒙特卡羅模擬法234
13.4 案例研究:中心極限定理的證明236
13.5 案例研究:發(fā)生一連串小概率事件的頻率237
13.6 案例研究:臭名昭著的生日問題238
13.7 案例研究(高級(jí)):蒙提霍爾問題239
13.8 案例研究(高級(jí)):貝葉斯分析241
術(shù)語表242
參考文獻(xiàn)244
第14章 大數(shù)據(jù)分析中的特殊注意事項(xiàng)246
14.1 數(shù)據(jù)搜索理論246
14.2 理論搜索中的數(shù)據(jù)247
14.3 巨大的偏差248
14.4 大數(shù)據(jù)的數(shù)據(jù)子集:不可加和不傳遞251
14.5 其他大數(shù)據(jù)陷阱252
14.6 案例研究(高級(jí)):維數(shù)災(zāi)難254
術(shù)語表257
參考文獻(xiàn)258
第15章 大數(shù)據(jù)的失敗以及如何避免260
15.1 失敗很常見260
15.2 失敗的標(biāo)準(zhǔn)261
15.3 復(fù)雜性264
15.4 逐步走進(jìn)大數(shù)據(jù)分析265
15.5 失敗之后272
15.6 案例研究:癌癥生物醫(yī)學(xué)信息學(xué)網(wǎng)格—遙遠(yuǎn)的橋273
15.7 案例研究:高斯Copula函數(shù)277
術(shù)語表278
參考文獻(xiàn)280
第16章 數(shù)據(jù)再分析:比分析更重要283
16.1 第一次分析(幾乎)總是錯(cuò)的283
16.2 為什么再分析比分析更重要285
16.3 案例研究:舊JADE對(duì)撞機(jī)數(shù)據(jù)的再分析287
16.4 案例研究:通過再分析證明287
16.5 案例研究:從舊數(shù)據(jù)中尋找新行星288
術(shù)語表289
參考文獻(xiàn)290
第17章 大數(shù)據(jù)再利用294
17.1 什么是數(shù)據(jù)再利用294
17.2 暗數(shù)據(jù)、廢棄數(shù)據(jù)和遺留數(shù)據(jù)296
17.3 案例研究:從郵政編碼到人口統(tǒng)計(jì)學(xué)基礎(chǔ)297
17.4 案例研究:基因序列數(shù)據(jù)庫的科學(xué)推斷298
17.5 案例研究:將全球變暖與高強(qiáng)度颶風(fēng)聯(lián)系起來298
17.6 案例研究:用地質(zhì)數(shù)據(jù)推斷氣候趨勢(shì)299
17.7 案例研究:環(huán)月影像恢復(fù)工程299
術(shù)語表301
參考文獻(xiàn)301
第18章 數(shù)據(jù)共享和數(shù)據(jù)安全303
18.1 什么是數(shù)據(jù)共享,為什么我們不共享更多數(shù)據(jù)303
18.2 常見的不滿303
18.3 數(shù)據(jù)安全和加密協(xié)議308
18.4 案例研究:火星上的生命313
18.5 案例研究:個(gè)人標(biāo)識(shí)符314
術(shù)語表315
參考文獻(xiàn)317
第19章 合法性320
19.1 對(duì)數(shù)據(jù)的準(zhǔn)確性和合法性負(fù)責(zé)320
19.2 創(chuàng)建、使用和共享資源的權(quán)利322
19.3 因使用標(biāo)準(zhǔn)而招致的版權(quán)和專利侵權(quán)行為324
19.4 對(duì)個(gè)人的保護(hù)325
19.5 許可問題326
19.6 未經(jīng)許可的數(shù)據(jù)330
19.7 隱私策略332
19.8 案例研究:大數(shù)據(jù)的時(shí)效性333
19.9 案例:哈瓦蘇派的故事334
術(shù)語表335
參考文獻(xiàn)336
第20章 社會(huì)問題338
20.1 公眾的大數(shù)據(jù)感知338
20.2 用大數(shù)據(jù)降低成本和提高生產(chǎn)效率340
20.3 公眾的疑慮342
20.4 從自己做起343
20.5 誰是大數(shù)據(jù)344
20.6 傲慢和夸張349
20.7 案例研究:公民科學(xué)家351
20.8 案例研究:?jiǎn)讨巍W威爾的《1984》354
術(shù)語表354
參考文獻(xiàn)355