本書的整體行文是基于“說些歷史、話些故事、聊些技術、談些思考”這樣的思路展開的。全書共有13章,邏輯上分為四個部分:第一部分嘗試對“數(shù)覺→數(shù)→數(shù)據(jù)→大數(shù)據(jù)”歷史脈絡進行梳理并陳述社會各界迎接和擁抱“大數(shù)據(jù)”的若干事實;第二部分嘗試從技術實現(xiàn)和部署實施的角度厘清大數(shù)據(jù)技術流程,并從多個視角和層面闡述各個環(huán)節(jié)面臨的挑戰(zhàn)和機遇,重點敘述不同知識背景的研究群體針對大數(shù)據(jù)的態(tài)度、行動和思維方式;第三部分嘗試從管理策略、價值實現(xiàn)及思維方式三個角度厘清大數(shù)據(jù)落地應用涉及的技術和非技術問題,并從多個視角和層面梳理各個環(huán)節(jié)的要點和細則;第四部分在對互聯(lián)網(wǎng)的技術發(fā)展脈絡及國際經(jīng)濟形勢進行梳理的基礎上,分析了在“互聯(lián)網(wǎng)+”概念被熱炒及全民總動員的當代大數(shù)據(jù)的潛在發(fā)展機遇和應用場景。
序
第一篇現(xiàn)象及感性思辨
第1章大數(shù)據(jù)溯源3
1.1引言3
1.2數(shù)覺及數(shù)的起源7
1.3模擬與數(shù)字計算10
1.4從數(shù)據(jù)到大數(shù)據(jù)15
1.5大數(shù)據(jù)時代19
1.6本章小結23
本章參考文獻23
第2章大數(shù)據(jù)現(xiàn)象25
2.1引言25
2.2政界大數(shù)據(jù)28
2.3業(yè)界大數(shù)據(jù)33
2.4學界大數(shù)據(jù)39
2.5本章小結44
本章參考文獻45
第3章大數(shù)據(jù)產(chǎn)業(yè)46
3.1引言46
3.2大數(shù)據(jù)產(chǎn)業(yè)環(huán)境49
3.2.1政策環(huán)境49
3.2.2應用環(huán)境51
3.2.3技術環(huán)境52
3.3大數(shù)據(jù)產(chǎn)業(yè)地圖53
3.3.1大數(shù)據(jù)產(chǎn)業(yè)地圖由來53
3.3.2大數(shù)據(jù)產(chǎn)業(yè)地圖明細54
3.3.3大數(shù)據(jù)產(chǎn)業(yè)地圖意義61
3.4大數(shù)據(jù)應用提示62
3.4.1大數(shù)據(jù)中文解析及提示62
3.4.2大數(shù)據(jù)應用場景及策略64
3.4.3大數(shù)據(jù)陷阱及應用提示65
3.5本章小結67
本章參考文獻68
第二篇技術及選型思路
第4章大數(shù)據(jù)支撐技術71
4.1引言71
4.2大數(shù)據(jù)流程73
4.2.1顯式挑戰(zhàn)74
4.2.2隱式困難76
4.2.3評估思路78
4.3基礎支撐技術78
4.3.1數(shù)據(jù)采集79
4.3.2數(shù)據(jù)存儲81
4.3.3數(shù)據(jù)建模82
4.3.4計算架構85
4.4高級支撐技術90
4.4.1云計算背景90
4.4.2云計算定義91
4.4.3云計算本質(zhì)93
4.4.4應用提示96
4.5本章小結97
本章參考文獻98
第5章數(shù)據(jù)采集與整合99
5.1引言99
5.2大數(shù)據(jù)的數(shù)據(jù)源101
5.2.1數(shù)據(jù)分布101
5.2.2內(nèi)部數(shù)據(jù)103
5.2.3互聯(lián)網(wǎng)數(shù)據(jù)105
5.2.4應用提示105
5.3內(nèi)部數(shù)據(jù)及內(nèi)部數(shù)據(jù)采集106
5.3.1目標任務106
5.3.2關鍵技術107
5.3.3ETL工具110
5.3.4應用提示111
5.4互聯(lián)網(wǎng)數(shù)據(jù)及互聯(lián)網(wǎng)數(shù)據(jù)采集113
5.4.1目標任務113
5.4.2關鍵技術114
5.4.3開源網(wǎng)絡爬蟲118
5.4.4應用提示120
5.5本章小結121
本章參考文獻123
第6章數(shù)據(jù)存儲與管理124
6.1引言124
6.2數(shù)據(jù)組織127
6.2.1集中與分布128
6.2.2SQL與NoSQL130
6.3數(shù)據(jù)存儲138
6.4云存儲141
6.5本章小結144
本章參考文獻145
第7章數(shù)據(jù)表示與理解146
7.1引言146
7.2度量方法149
7.2.1相似系數(shù)函數(shù)150
7.2.2距離函數(shù)152
7.3數(shù)據(jù)規(guī)范154
7.4特征工程155
7.4.1特征表示156
7.4.2特征提取156
7.4.3特征選擇175
7.5應用提示178
7.6本章小結181
本章參考文獻181
第8章數(shù)據(jù)理解與建模183
8.1引言183
8.2機器學習185
8.3非監(jiān)督學習187
8.3.1KMeans188
8.3.2EM189
8.4監(jiān)督學習192
8.4.1回歸192
8.4.2分類196
8.5本章小結226
本章參考文獻227
第9章知識發(fā)現(xiàn)與應用229
9.1引言229
9.2從機器學習到數(shù)據(jù)挖掘233
9.2.1統(tǒng)計與統(tǒng)計學234
9.2.2智能與人工智能235
9.2.3人工智能與機器學習237
9.2.4數(shù)據(jù)挖掘及技術路徑239
9.2.5應用提示245
9.3從數(shù)據(jù)挖掘到數(shù)據(jù)科學246
9.3.1從“驚奇”引發(fā)的科學之母246
9.3.2從“科學”引發(fā)的研究范式249
9.3.3從“數(shù)據(jù)”引發(fā)的數(shù)據(jù)科學251
9.4從算法到大數(shù)據(jù)方法論252
9.4.1演繹與歸納252
9.4.2因果與相關255
9.4.3定律與模型257
9.5本章小結260
本章參考文獻260
第三篇實施及理性思考
第10章大數(shù)據(jù)實施265
10.1引言265
10.2工程管理267
10.2.1思維層的應用模式梳理267
10.2.2開發(fā)層的工程實施路徑270
10.2.3運維層的平臺應用保障273
10.3技術管理274
10.3.1生產(chǎn)流程管理274
10.3.2技術流程管理277
10.3.3知識流程管理279
10.4商務管理282
10.4.1商業(yè)模式價值邏輯282
10.4.2大數(shù)據(jù)與商業(yè)模式283
10.4.3典型商業(yè)模式示例287
10.5本章小結290
本章參考文獻291
第11章大數(shù)據(jù)價值292
11.1引言292
11.2從數(shù)據(jù)到價值294
11.2.1數(shù)據(jù)的價值295
11.2.2信息的價值297
11.2.3知識的價值299
11.2.4應用提示300
11.3從閉環(huán)到開環(huán)302
11.3.1垂直應用價值302
11.3.2平臺集成價值303
11.3.3生態(tài)協(xié)同價值305
11.3.4應用提示305
11.4大數(shù)據(jù)評估306
11.4.1數(shù)據(jù)價值評估306
11.4.2數(shù)據(jù)質(zhì)量評估310
11.4.3平臺價值評估312
11.4.4應用提示315
11.5本章小結321
本章參考文獻322
第12章大數(shù)據(jù)思維323
12.1引言323
12.2數(shù)據(jù)層325
12.2.1數(shù)據(jù)全采樣325
12.2.2數(shù)據(jù)交叉復用327
12.2.3數(shù)據(jù)云化存儲328
12.3分析層330
12.3.1相關重于因果330
12.3.2效率重于精度332
12.3.3離線分析+實時運行334
12.4應用層336
12.4.1數(shù)據(jù)質(zhì)量溯源336
12.4.2服務和應用340
12.4.3開放和合作342
12.5本章小結345
本章參考文獻347
第四篇機遇及應用思索
第13章大數(shù)據(jù)機遇351
13.1引言351
13.2互聯(lián)網(wǎng)+356
13.3電子商務359
13.3.1電子商務概述359
13.3.2移動電子商務362
13.3.3跨境電子商務363
13.3.4應用提示365
13.4工業(yè)互聯(lián)網(wǎng)368
13.4.1基本概念368
13.4.2笑臉曲線368
13.4.3工業(yè)4.0371
13.4.4應用提示376
13.5互聯(lián)網(wǎng)金融380
13.5.1基本概念380
13.5.2面向投融資的互聯(lián)網(wǎng)金融381
13.5.3面向支付的互聯(lián)網(wǎng)金融384
13.5.4其他類型的互聯(lián)網(wǎng)金融387
13.5.5應用提示390
13.6本章小結392
本章參考文獻394
跋395